大型语言模型的累积推理

主页：https://cumulative-reasoning.github.io

简介

论文"大型语言模型的累积推理"的官方实现（https://arxiv.org/abs/2308.04371）。

在24点游戏中达到98%的准确率（比思维树方法高出24%）！
使用GPT-4-0314在无代码环境的MATH数据集上达到58%的准确率（比PHP高出4.2%）！
在最难的第5级MATH问题上实现43%的相对提升（从22.4%提高到32.1%）！
使用GPT-4-1106-preview在有代码环境的MATH数据集上达到72.2%的准确率（比PAL（PoT）高出20.2%）！
聚焦于第5级MATH问题，CR Agent v0.1相比PAL展现出惊人的66.8%提升！

安装

conda create -n cr python==3.10
conda activate cr
pip install -r requirements.txt

更多使用帮助，请参阅每个子目录中的README.md。

CR Agent：在代码环境中解决MATH问题

请查看./CR-Agent文件夹以获取MATH数据集的输出日志和提示，我们已发布CR Agent v0.1的代码（基于ToRA的最小化实现）。

实验结果

在本节中，我们使用了GPT-4-1106-preview和Python代码环境，没有额外的工具如外部存储和检索系统。实验采用了最小化设置，仅使用一个推理上下文会话。该会话通过简单累积和拼接上下文字符串进行管理，整个过程仅使用单一LLM执行，没有验证器LLM的辅助。值得注意的是，实现完全使用Python字符串，没有利用任何专门的框架如Langchain或guidance。

这个实验设置的结果显示了显著的成果：

PAL（程序辅助语言模型）：达到52%的准确率。
ToRA（工具集成推理代理）：展示了更高的60.8%准确率。
CR Agent（累积推理代理）v0.1：以72.2%的惊人准确率显著超越了上述方法。
特别关注第5级问题，CR Agent相比PAL展现出显著的**66.8%提升，相比ToRA有12.7%**的相对提升。

各类别得分

方法	代数	计数与概率	几何	中级代数	数论	初级代数	预科数学
PAL (PoT)	65.3	57.9	31.7	30.9	66.1	73.2	23.2
ToRA	71.8	68.4	48.8	49.5	66.1	67.1	44.6
CR Agent	86.3	71.1	53.7	51.5	88.7	86.6	51.8

难度等级得分

方法	第1级	第2级	第3级	第4级	第5级
PAL (PoT)	88.4	65.6	60.0	45.3	31.3
ToRA	74.4	75.6	69.5	53.9	46.3
CR Agent	90.7	90.0	81.9	66.4	52.2

星号突出显示了每个类别和难度等级中表现最佳的方法，清楚地表明CR Agent在这个实验设置中的优越性。

这些表格全面展示了MATH数据集中各种类别和难度等级下每种方法的表现。CR Agent在大多数类别和级别上都显示出显著的改进，说明了它在解决复杂数学问题方面的稳健性和有效性，即使在简化的实验设置约束下也是如此。

基于"元提示"的CR Agent助手v0.1

有关基于OpenAI Assistant API的最简实现，请参见./CR-Agent-Assistant/cr-agent-assistant-v0.1.md。

在线演示请访问https://chat.openai.com/g/g-L3a4ZCIHx-cr-agent-v0-1。

元提示（通用定义）：元提示是一种受类型理论启发的提示技术，强调示例的结构和语法，而非其详细内容。这是一种方法，重点在于呈现问题或主题的大纲或框架，提供一个可以根据需要填充具体细节的脚手架。这种技术在理解问题或解决方案的形式和模式比具体内容更重要的情况下特别有用。

重访24点游戏

我们使用纯元提示实现了CR Agent，让AI Agent直接编写Python程序来解决24点游戏任务，并在一次响应中处理所有样本，速度比之前的方法快n倍。详情请见https://github.com/meta-prompting/meta-prompting。

MP-CR-Agent-XML v0.2 成功率：100%，每个样本用时：0.08秒。

</center>

致谢

本仓库主要基于Guidance、HuggingFace、Tree of Thoughts和ToRA。感谢他们出色的工作！

引用

如果您使用累积推理（CR）并认为它有趣/有用，请引用论文并为本仓库加星，谢谢！如果您有任何问题，欢迎联系zhangyif21@tsinghua.edu.cn | yangjq21@mails.tsinghua.edu.cn或开启一个issue。

@article{张2023累积,
  title={大型语言模型的累积推理},
  author={张一帆 and 杨静琴 and 袁阳 and 姚期智},
  journal={arXiv预印本 arXiv:2308.04371},
  year={2023}
}

cumulative-reasoning

大型语言模型的累积推理

简介

安装

CR Agent：在代码环境中解决MATH问题

实验结果

各类别得分

难度等级得分

基于"元提示"的CR Agent助手v0.1

重访24点游戏

致谢

引用

编辑推荐精选

Keevx

即梦AI

扣子-AI办公

TRAE编程

蛙蛙写作

问小白

Transly

讯飞智文

讯飞星火

Spark-TTS

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

讯飞文书

讯飞绘文

讯飞绘镜

问小白

咔片PPT

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号