🛠️ ToolQA数据集的官方代码和数据仓库。ToolQA是一个专门设计用于评估工具增强型大语言模型(LLMs)的开源数据集。本仓库提供了数据集、相应的数据生成代码,以及在我们数据集上的基线实现。
ToolQA包含来自8个不同领域的数据,每个实例都是一个元组——(问题、答案、参考语料库和工具)。参考语料库是可查询的外部知识源,可以是文本语料库、表格数据库或图形。
上下文 | 主题 | 知识格式 | 知识规模 | 简单模板数 | 简单问题数 | 困难模板数 | 困难问题数 |
---|---|---|---|---|---|---|---|
时间性 | 航班 | 表格数据库 | 4078318 | 10 | 100 | 10 | 100 |
时间性 | 咖啡 | 表格数据库 | 5746 | 8 | 100 | 13 | 130 |
空间性 | Yelp | 表格数据库 | 150346 | 11 | 100 | 10 | 100 |
空间性 | Airbnb | 表格数据库 | 102599 | 10 | 100 | 10 | 100 |
数学性 | GSM8K | 专业能力 | - | - | 100 | - | - |
社交性 | DBLP | 图形 | 553320 | 10 | 100 | 10 | 100 |
科学性 | SciREX | 纯文本语料库 | 438 | 1 | 100 | 4 | 100 |
个人性 | 日程 | 纯文本语料库 | 10000 | 5 | 100 | 5 | 100 |
总计 | - | - | - | 55 | 800 | 62 | 730 |
我们为ToolQA涉及的所有数据提供下载链接。我们提供两类数据供下载和使用。第一类是外部语料库。这类数据已经由我们预处理,用于外部工具交互(例如检索、数据库操作等)。第二类数据是原始数据,不能作为ToolQA的外部知识进行交互。我们提供这部分数据仅供用户生成更多问题和答案,用于模型调优或全面评估。
外部语料库可以通过此链接下载。下载并解压后,用户需要将其放置在/<YOUR_OWN_PATH>/ToolQA/data/external_corpus/
目录下。
以下列出了所有数据源和下载指南:
您还可以使用ToolQA在我们的模板下生成新问题,用于调优和新的评估集。我们在"/dataset_generation/"目录 中提供了数据生成代码。您只需修改笔记本中的路径即可。
我们在基准测试的每个基线中提供了一系列已实现的工具,如"./benchmark/ReAct/code/tools"。请注意,这些问题是有意设计成开放式的。这反映了我们的信念,即这些问题已经具有足够的挑战性,我们不希望限制论文中建议的工具。我们欢迎使用更高级的工具(如更优秀的检索器)进行实验以提高性能,或设计更有效的规划模块以更好地组合使用我们定义的工具。因此,我们很期待看到针对所有问题的多样化实现。
我们使用Langchain包和Chroma向量数据库实现了检索器。我们已经在下载链接上传了预处理的chroma向量库。请将文件下载到"/<YOUR_OWN_PATH>/ToolQA/data/chroma_db/"目录下。
要解释SQL命令,用户可能需要先将数据库加载到mysql数据库中。您可以运行以下命令来创建数据库(整个过程可能需要数小时):
python ./benchmark/ReAct/code/tools/table/mysql_db_create.py
要在实现中使用计算器,您首先需要通过官方Wolframalpha开发者门户注册一个账户。
数据和代码正处于最后的清理阶段,将在很短的时间内逐步公开。我们在TODO列表部分提供了最终审查的详细进展。
如果您有任何问题,请随时联系"yczhuang at gatech.edu"。请尽量详细说明问题,以便我们能更好更快地帮助您!
如果您发现这个仓库对您的研究有价值,我们恳请您通过引用以 下论文来认可我们的工作。我们感谢您的考虑。
@misc{zhuang2023toolqa,
title={ToolQA: A Dataset for LLM Question Answering with External Tools},
author={Yuchen Zhuang and Yue Yu and Kuan Wang and Haotian Sun and Chao Zhang},
year={2023},
eprint={2306.13304},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业 培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。
一站式AI创作平台
提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作
AI办公助手,复杂任务高效处理
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
AI辅助编程,代码自动修 复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。