LLM微调优质数据集与工具资源库
LLM Datasets项目汇集了大语言模型 微调所需的优质数据集、实用工具和核心概念。涵盖通用、数学逻辑、编程和对话等多个领域,项目详细阐述了高质量数据集的特征。为研究人员和开发者提供多样化的LLM微调数据资源,旨在促进模型性能提升。
数据是大语言模型开发中最有价值的资产。虽然无法像评估模型那样直接评估数据集,但高质量的数据集具有以下特征:
对于数学问题,使用Python解释器可以轻松衡量准确性,但对于开放式、主观性问题则几乎不可能。另一方面,按主题对数据集进行聚类是衡量多样性的好方法。最后,可以使用其他大语言模型作为评判来评估复杂性。
一旦模型在下一个标记预测任务上完成预训练,就会使用监督微调将其转变为能够回答问题和完成任务的助手。这些数据集包含指令和输出对,用于训练大语言模型超越其预训练目标。这里列出的 所有数据集都应该在宽松的许可下(Apache 2.0、MIT、cc-by-4.0等)。
通用目的数据集的目标是通过让模型接触广泛的高质量数据,将基础模型转变为多功能且能力强大的助手。这些数据集通常包括真实世界和合成数据的多样化混合,常常使用GPT-4等模型生成。
数据集 | 数量 | 作者 | 日期 | 备注 |
---|---|---|---|---|
Buzz | 3120万 | Alignment Lab AI | 2024年5月 | 435个数据集的大型集合,包含数据增强、去重和其他技术。 |
WebInstructSub | 239万 | Yue等人 | 2024年5月 | 通过从Common Crawl检索文档、提取问答对并精炼而创建的指令。参见MAmmoTH2论文(这是其子集)。 |
The-Tome | 175万 | Arcee AI | 2024年7月 | 重新排序和过滤的数据集集合,专注于指令遵循。参见我的10万条子集。 |
Hercules v4.5 | 172万 | Sebastian Gabarain | 2024年4月 | 大规模通用数据集,包含数学、代码、角色扮演等。参见v4了解数据集列表。 |
Dolphin-2.9 | 139万 | Cognitive Computations | 2023年4月 | Dolphin模型使用的大规模通用数据集。 |
WildChat-1M | 104万 | Zhao等人 | 2023年5月 | 人类用户与GPT-3.5/4之间的真实对话,包括元数据。参见WildChat论文。 |
OpenHermes-2.5 | 100万 | Teknium | 2023年11月 | OpenHermes模型使用的另一个大规模数据集。 |
Infinity-Instruct | 66万 | BAAI | 2024年6月 | 基于精选和演化指令的样本集。 |
SlimOrca | 51.8万 | Lian等人 | 2023年9月 | OpenOrca的精选子集,使用GPT-4作为评判以删除错误答案。 |
Tulu V2 Mix | 32.6万 | Ivison等人 | 2023年11月 | 高质量数据集的混合。参见Tulu 2论文。 |
UltraInteract SFT | 28.9万 | Yuan等人 | 2024年4月 | 专注于数学、编码和逻辑任务,提供逐步答案。参见Eurus论文。 |
NeurIPS-LLM-data | 20.4万 | Jindal等人 | 2023年11月 | NeurIPS LLM效率挑战赛的获胜者,采用有趣的数据准备策略。 |
UltraChat 200k | 20万 | Tunstall等人,Ding等人 | 2023年10月 | UItraChat数据集的高度过滤版本,包含140万对由ChatGPT生成的对话。 |
WizardLM_evol_instruct_V2 | 14.3万 | Xu等人 | 2023年6月 | 最新版本的Evol-Instruct应用于Alpaca和ShareGPT数据。参见WizardLM论文。 |
Synthia-v1.3 | 11.9万 | Migel Tissera | 2023年11月 | 使用GPT-4生成的高质量合成数据。 |
oasst1 | 8.44万 | Köpf等人 | 2023年3月 | 人工生成的35种不同语言的助手式对话语料库。参见OASST1论文和oasst2。 |
WizardLM_evol_instruct_70k | 7万 | Xu等人 | 2023年4月 | Evol-Instruct应用于Alpaca和ShareGPT数据。参见WizardLM论文。 |
airoboros-3.2 | 5.87万 | Jon Durbin | 2023年12月 | 高质量未经审查的数据集。 |
ShareGPT_Vicuna_unfiltered | 5.3万 | anon823 1489123 | 2023年3月 | ShareGPT数据集的过滤版本,包含用户与ChatGPT之间的真实对话。 |
lmsys-chat-1m-smortmodelsonly | 4.58万 | Nebulous, Zheng等人 | 2023年9月 | lmsys-chat-1m的 过滤版本,包含来自GPT-4、GPT-3.5-turbo、Claude-2、Claude-1和Claude-instant-1的响应。 |
Open-Platypus | 24.9k | Lee等人 | 2023年9月 | 使用句子转换器去重的数据集集合(包含一个NC数据集)。详见Platypus论文。 |
databricks-dolly-15k | 15k | Conover等人 | 2023年5月 | 由Databricks员工生成,包含八个不同指令类别的提示/响应对,其中包括InstructGPT论文中概述的七个类别。 |
大语言模型在数学推理和形式逻辑方面常常表现不佳,这促使了专门数据集的创建。这些数据集不仅涵盖纯数学,还包括广泛的需要系统思考和逐步推理的问题,最终使大语言模型能够应对涉及逻辑推理和定量分析的复杂现实问题。
数据集 | 数量 | 作者 | 日期 | 备注 |
---|---|---|---|---|
OpenMathInstruct-1 | 575万 | Toshniwal等人 | 2024年2月 | 来自GSM8K和MATH的问题,解答由Mixtral-8x7B生成 |
MetaMathQA | 39.5万 | Yu等人 | 2023年12月 | 通过多角度重写引导数学问题。参见MetaMath论文。 |
MathInstruct | 26.2万 | Yue等人 | 2023年9月 | 汇编自13个数学推理数据集,其中6个为新整理,重点关注思维链和思维程序。 |
Orca-Math | 20万 | Mitra等人 | 2024年2月 | 使用GPT4-Turbo生成的小学数学应用题。参见Orca-Math论文。 |
对于缺乏专门预训练的大语言模型来说,代码是另一个具有挑战性的领域。代码数据集包含多种编程语言示例,用于微调大语言模型并提升它们理解、生成和分析代码的能力,使其能够作为有效的编程助手。
数据集 | 数量 | 作者 | 日期 | 备注 |
---|---|---|---|---|
CodeFeedback-Filtered-Instruction | 15.7万 | Zheng等人 | 2024年2月 | Magicoder-OSS-Instruct、ShareGPT(Python)、Magicoder-Evol-Instruct和Evol-Instruct-Code的过滤版本。 |
Tested-143k-Python-Alpaca | 14.3万 | Vezora | 2024年3月 | 经过自动测试验证的高质量Python代码集合。 |
glaive-code-assistant | 13.6万 | Glaive.ai | 2023年9月 | 包含问题和解决方案的合成数据,约60%为Python样本。另见v2版本。 |
Magicoder-Evol-Instruct-110K | 11万 | Wei等人 | 2023年11月 | evol-codealpaca-v1的去污染版本。去污染方式与StarCoder相同(bigcode去污染过程)。参见Magicoder论文。 |
dolphin-coder | 10.9万 | Eric Hartford | 2023年11月 | 由leetcode-rosetta转化而来的数据集。 |
synthetic_tex_to_sql | 10万 | Gretel.ai | 2024年4月 | 合成文本到SQL样本(约2300万个标记),涵盖多个领域。 |
sql-create-context | 7.86万 | b-mc2 | 2023年4月 | WikiSQL和Spider数据集的清理和增强版本。 |
Magicoder-OSS-Instruct-75K | 7.5万 | Wei等人 | 2023年11月 | 由gpt-3.5-turbo-1106 生成的OSS-Instruct数据集。参见Magicoder论文。 |
Code-Feedback | 6.64万 | Zheng等人 | 2024年2月 | 多样化的类Code Interpreter数据集,包含多轮对话以及交错的文本和代码响应。参见OpenCodeInterpreter论文。 |
Open-Critic-GPT | 5.51万 | Vezora | 2024年7月 | 使用本地模型在多种编程语言中创建、引入和识别代码中的错误。 |
self-oss-instruct-sc2-exec-filter-50k | 5.07万 | Lozhkov等人 | 2024年4月 | 通 过三个步骤创建:从TheStack v1获取种子函数,使用StarCoder2进行自我指导,以及自我验证。参见博客文章。 |
许多数据集专注于指令和输出的配对,但聊天模型通常用于对话场景。对话和角色扮演数据集让大语言模型接触到真实对话的模式、细微差别和上下文相关性,使它们能够生成更自然、更有吸引力的对话。
数据集 | 数量 | 作者 | 日期 | 备注 |
---|---|---|---|---|
Bluemoon | 29万 | Squish42 | 2023年6月 | 由第三方清理和抓取的Blue Moon角色扮演论坛帖子。 |
PIPPA | 1.68万 | Gosling等人,kingbri | 2023年8月 | Pygmalion的PIPPA去重版本,采用ShareGPT格式。 |
Capybara | 1.6万 | LDJnr | 2023年12月 | 重点关注广泛领域的信息多样性,包含多轮对话。 |
RPGPT_PublicDomain-alpaca | 4260 | practical dreamer | 2023年5月 | 使用build-a-dataset生成的公共领域角色对话角色扮演格式合成数据集 |
Pure-Dove | 3860 | LDJnr | 2023年9月 | 经过高度筛选的GPT-4与真人之间的多轮对话 |
Opus Samantha | 1850 | macadelicc | 2024年4月 | 与Claude 3 Opus的多轮对话。 |
LimaRP-augmented | 804 | lemonilia, grimulkan | 2024年1月 | LimaRP的增强和清理版本,由人类角色扮演对话组成。 |
函数调用允许大型语言模型(LLM)执行预定义的函数,其参数由用户提示推断,而不是生成标准文本响应。这使LLM能够无缝集成外部系统,执行复杂操作,并提供更准确和上下文相关的响应。
数据集 | 数量 | 作者 | 日期 | 备注 |
---|---|---|---|---|
glaive-function-calling-v2 | 11.3万 | Sahil Chaudhary | 2023年9月 | 高质量数据集,包含不同语言的指令和答案对。<br>参见Locutusque/function-calling-chatml,该版本不含对话标签。 |
xlam-function-calling-60k | 6万 | Salesforce | 2024年6月 | 使用专为函数调用应用设计的数据生成管道创建的可验证样本 |
Agent-FLAN | 3.44万 | internlm | 2024年3月 | AgentInstruct、ToolBench和ShareGPT数据集的混合。 |
开发中。
要创建高质量数据集,重点应放在仔细筛选相关、准确和信息丰富的多样化示例上,而不是简单地最大化数据集规模。
首先从各种来源(开源或非开源)聚合可用数据,并应用数据去重和质量过滤等处理。 如果初始数据集较小或不足,可考虑合成生成额外数据,以匹配其质量和风格。通过评估模型性能、识别差距并收集或生成数据来解决这些不足,反复探索和优化数据集。
本节列出的工具可能属于多个类别,但为清晰起见只出现在一个类别中。
特别感谢geronimi73、Bytes-Explorer和euclaise的PR贡献。
如果有任何数据集未得到适当引用,请告知我。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号