大语言模型：精选AI工具、网站与开源项目

大语言模型

MathVista：突破视觉数学推理的新基准

MathVista是一个创新的基准测试项目，旨在评估人工智能模型在视觉环境下的数学推理能力。它结合了多模态数据集和全新任务，为人工智能在数学领域的发展提供了新的挑战和机遇。

MathVista数学推理视觉理解大语言模型多模态模型Github开源项目

CRUD-RAG：全面评估中文检索增强生成系统的创新基准

CRUD-RAG是一个针对中文大语言模型检索增强生成系统的全面评估基准，涵盖了创建、读取、更新和删除四大类任务，为RAG系统的性能评估提供了新的视角和方法。

CRUD-RAG中文基准测试检索增强生成大语言模型评估系统Github开源项目

多智能体辩论:探索大语言模型的创新思维能力

本文深入介绍了多智能体辩论(MAD)框架,探讨了如何通过多个大语言模型之间的辩论来激发创新思维,克服单一模型的认知局限性,并在反直觉问答和常识机器翻译等任务上取得显著进展。

Multi-Agent Debate大语言模型语言模型AI辩论认知行为Github开源项目

ToolQA:一个评估大语言模型外部工具使用能力的创新数据集

ToolQA是一个专为评估工具增强型大语言模型(LLMs)而设计的开源数据集。它涵盖8个真实场景,提供两个难度级别的问题,旨在测试LLMs使用外部工具回答具有挑战性问题的能力。

ToolQA大语言模型数据集工具增强评估基准Github开源项目

大型图模型: 图神经网络的下一个前沿

本文介绍了大型图模型的概念、发展现状及未来趋势。大型图模型类似于自然语言处理领域的大语言模型,有望成为图机器学习的下一个突破口,为研究人员和从业者带来激动人心的机遇。文章详细讨论了大型图模型的特点、面临的挑战以及潜在的应用场景,为读者全面了解这一新兴研究方向提供了深入的见解。

大图模型图机器学习图神经网络大语言模型图提示学习Github开源项目

累积推理:大语言模型的新型思维方式

本文介绍了一种名为"累积推理"的新型大语言模型推理方法,该方法通过累积和整合中间推理过程,显著提高了模型在数学问题求解等复杂任务上的表现。文章详细阐述了累积推理的原理、实现方式及其在多个benchmark上的卓越表现。

大语言模型累积推理数学问题解决GPT-4人工智能Github开源项目

Aegis: 为大语言模型打造自我强化的防火墙

Aegis是一款为大语言模型设计的自我强化防火墙系统,可有效防御各类对抗性攻击,如提示注入、隐私泄露和有害语言等,为模型和用户提供全方位保护。

Aegis大语言模型防火墙安全保护对抗性攻击Github开源项目

ResuLLMe: 利用大语言模型增强你的简历

ResuLLMe是一个创新的简历增强工具,它利用大语言模型的强大能力,帮助求职者优化简历内容,避免常见错误,提高求职成功率。本文详细介绍了ResuLLMe的概念、工作原理、使用方法以及贡献指南。

ResuLLMe简历优化大语言模型LaTeXJSON ResumeGithub开源项目

DatasetGPT：revolutionizing dataset generation with large language models

DatasetGPT是一个开源命令行工具，利用大型语言模型生成文本和对话数据集，为AI研究和应用提供了强大的数据生成解决方案。

datasetGPT大语言模型数据集生成命令行工具API接口Github开源项目

LLMPapers: 大型语言模型研究的宝库

探索LLMPapers项目,这是一个汇集了ChatGPT、GPT-3、Codex等大型语言模型相关论文和研究的开源资源库。了解这个项目如何为AI研究者和开发者提供宝贵的学习资料和最新进展。

大语言模型ChatGPT自然语言处理人工智能机器学习Github开源项目

FreshLLMs: 利用搜索引擎增强刷新大型语言模型

FreshLLMs是一种创新的方法,通过搜索引擎增强来刷新大型语言模型的知识,使其能够回答有关最新事件和快速变化信息的问题。本文介绍了FreshLLMs的核心组件,包括FreshQA数据集、FreshPrompt提示方法和FreshEval评估指标,并探讨了其在提升大型语言模型时效性和准确性方面的应用前景。

FreshLLMs大语言模型搜索引擎增强数据集评估方法Github开源项目