超棒的ChatGPT数据集

替代文本

释放大语言模型的力量：探索这些数据集来训练你自己的ChatGPT！

选择你自己的混合数据集

git clone https://github.com/voidful/awesome-chatgpt-dataset.git
cd awesome-chatgpt-dataset/mixed/dataset

选择你想使用的任何数据集，然后合并并上传：

python preprocess.py 你的数据集名称_to_HuggingFaceHub

数据集详情

数据集名称	大小	语言	来源	许可证
TheoremQA	1千	英语	我们标注了800个问答对，涵盖350多个定理，跨越数学、电子电气与计算机科学、物理和金融领域。	MIT
lima	1千	英语	LIMA：对齐中更少即是更多	CC BY-NC-SA
im-feeling-curious	3千	英语	这个公开数据集是从谷歌的"我很好奇"功能中提取的。要了解更多关于这个功能的信息，请在谷歌上搜索"我很好奇"。	-
Puffin	3千	英语	Puffin数据集。精确包含3,000个样本，每个回答均使用GPT-4创建。	apache-2.0
cc_sbu_align	4千	英语	MiniGPT-4数据集	BSD 3-Clause License
qa_feedback	4千	英语	我们重构了ASQA数据并收集了人类反馈。我们将得到的数据集命名为qa-feedback。	-
SLF5K	5千	英语	带有语言反馈的摘要（SLF5K）数据集是一个英语数据集，包含5千个独特样本，可用于抽象摘要任务。	apache-2.0
blended_skill_talk	7千	英语	一个包含7千个对话的数据集，专门设计用于展示多种对话模式：展现个性、表达同理心和展示知识。	-
GSM-IC	8千	英语	带有无关上下文的小学数学（GSM-IC）	-
ChatAlpaca	1万	英语	数据目前包含总计10,000个对话，共95,558条话语。	Apache-2.0 license
PKU-SafeRLHF-10K	1万	英语	PKU-SafeRLHF-10K是同类数据集中的第一个，包含1万个带有安全偏好的实例。	-
Dolly	1.5万	英语	databricks-dolly-15k是一个由数千名Databricks员工生成的语料库，包含超过15,000条记录，旨在使大型语言模型能够展现ChatGPT的神奇交互能力。	CC 3.0
WebGPT	2万	英语	这是WebGPT项目结束时被标记为适合奖励建模的所有比较的数据集。	-
Code Alpaca	2万	英语	涉及20,022个样本的代码生成任务	-
openapi-function-invocations-25k	2.5万	英语	这个数据集的构建涉及结合手动提取和AI辅助合成的系统程序。	MIT
LongForm	2.8万	英语	LongForm数据集是通过利用带有增强指令的英语语料库示例创建的。	LongForm项目受MIT许可证约束，但对OpenAI施加的限制（用于指令生成部分）以及语言模型（OPT、LLaMA和T5）的许可证有自定义限制。
chatbot_arena_conversations	3.3万	英语	该数据集包含33K经过清理的对话，带有成对的人类偏好。它是从2023年4月至6月期间在Chatbot Arena上由13K个独特IP地址收集的。
HC3	3.7万	英语、中文	37,175条由ChatGPT和人类生成的指令	-
Anthropic_HH_Golden	4.5万	英语	这个存储库包含一个新的偏好数据集，扩展了Anthropic的Helpful and Harmless (HH)数据集中的无害数据集。HH中原始的积极回应是由Anthropic的监督微调模型生成的，其中经常遇到有害和无益的回应。在这个数据集中，积极回应被GPT4生成的重新编写的回应所替代。
Mol-Instructions	4.8万	英语	一个开放的、大规模的生物分子指令数据集，用于大型语言模型。	CC BY 4.0
RefGPT	5万	英语、中文	我们引入了一种名为RefGPT的成本效益方法，该方法生成大量高质量的多轮问答内容。	-
arxiv-math-instruct-50k	5万	英语	数据集由来自ArXiv数学类别摘要的问答对组成	-
arxiv-math-instruct-50k	5.1万	英语	"ArtifactAI/arxiv-math-instruct-50k"数据集由来自ArXiv数学类别摘要的问答对组成。问题使用t5-base模型生成，而答案使用GPT-3.5-turbo模型生成。
Traditional Chinese Alpaca Dataset	5.2万	繁体中文	由ChatGPT API翻译自Alpaca数据	Apache-2.0 license
Cabrita Dataset	5.2万	葡萄牙语	翻译自Alpaca数据
日语Alpaca数据集	52K	日语	使用ChatGPT API从Alpaca数据翻译而来	CC By NC 4.0; OpenAI使用条款
Alpaca数据集	52K	英语	通过OpenAI API生成的175个种子指令	CC By NC 4.0; OpenAI使用条款
Alpaca数据清洗版	52K	英语	Alpaca数据集的修订版本	-
Alpaca GPT-4数据	52K	英语	使用Alpaca提示由GPT-4生成	-
Alpaca GPT-4数据（中文）	52K	中文	使用ChatGPT翻译的Alpaca中文提示由GPT-4生成	-
Dynosaur	66K	英语	Dynosaur，一种用于指令调优数据创建的动态增长范式	Apache-2.0许可证
金融	69K	英语	68,912条金融相关指令	-
evol	70K	英语	这是WizardLM的训练数据	-
Vicuna数据集	75K	英语	约10万条ShareGPT对话	-
指令翻译	80K	多语言	翻译由M2M 12B生成，由于VRAM限制（40G），输出生成限制为512个令牌	MIT
Self-Instruct	82K	英语	我们发布了一个包含52k指令的数据集，配对82K个实例输入和输出	-
OASST1	89K	多语言	一个人工生成、人工标注的助手式对话语料库，包含35种不同语言的161,443条消息，标注了461,292个质量评级，形成超过10,000个完全标注的对话树	apache-2.0
HH-RLHF	91K	英语	数据在论文中有描述：通过人类反馈的强化学习训练有帮助且无害的助手	MIT
Guanaco数据集	98K	英语、简体中文、繁体中文（香港和台湾）、日语	来自Alpaca模型的175个任务	GPLv3
InstructionWild	104K	英语、中文	429个种子指令并按照Alpaca方式生成52K	仅用于研究；OpenAI使用条款
Camel数据集	107K	多语言	AI之间的角色扮演（使用Open AI API）	-
Tapir-Cleaned	117K	英语	这是DAISLab的IFTTT规则数据集的修订版，经过彻底清理、评分和调整，用于指令调优	CC BY-NC 4.0
WizardLM_evol_instruct_V2_196k	143K	英语	这个数据集包含143K条Alpaca和ShareGPT混合进化而来的数据	-
LLaVA视觉指令	150K	英语	LLaVA视觉指令150K是一组GPT生成的多模态指令跟随数据。它用于视觉指令调优和构建大型多模态模型，以实现接近GPT-4的视觉/语言能力	cc-by-nc-4.0
亲社会对话	166K	英语	165,681条由GPT-3重写问题和人类反馈产生的指令	-
COIG	191K	中文	中文开放指令通用（COIG）项目，旨在维护一个无害、有帮助且多样化的中文指令语料库	apache-2.0
orca-chat	198K	英语	这是orca的清理、修剪和聚类版本，形成对话风格的数据集。该过程包括移除高度相似的样本，并将指令分组形成对话
非自然指令	241K	英语	一个几乎不需要人力劳动就能收集到的大型创意多样指令数据集	MIT
SHP	358K	英语	SHP是一个包含385K条集体人类偏好的数据集，涉及18个不同主题领域的问题/指令回应，从烹饪到法律建议	Reddit非独家、不可转让、不可再许可和可撤销的许可
dromedary	361K	英语	Dromedary-Verbose-Clone是一个包含360k条指令和演示的合成数据集	cc-by-nc-4.0
ultrachat	404K	英语	为确保生成质量，在生成过程中采用了两个独立的ChatGPT Turbo API，一个扮演用户角色生成查询，另一个生成响应	cc-by-nc-4.0
ign_clean_instruct_dataset_500k	509K	英语	该数据集包含约50.8万对高质量的提示-指令对。它是从Ultrachat提示的一个子集合成创建的。不包含任何对齐focused的响应或不适当内容。	apache-2.0
ELI5	559K	英语	ELI5数据集是一个英语数据集，包含从三个subreddit收集的问题和答案，用户在这些subreddit中提出需要段落长度或更长答案的事实性问题。	-
GPT4All数据集	806K	多语言	LAION OIG、StackOverflow问题、BigSciense/p3数据集的子集。由OpenAI API回答。	-
Instruct	889K	英语	888,969条英语指令，使用AllenAI NLP工具进行增强	MIT
MOSS	1M	中文	由gpt-3.5-turbo生成	Apache-2.0, AGPL-3.0许可
LaMini-Instruction	3M	英语	基于几个现有提示资源，使用gpt-3.5-turbo生成的总共258万对指令和响应	cc-by-nc-4.0
OpenOrca	3M	英语	OpenOrca数据集是FLAN Collection数据的增强集合。目前包含约100万个GPT-4完成和约320万个GPT-3.5完成。
Natural Instructions	5M	多语言	从各种NLP任务中收集的5,040,134条指令	-
BELLE	10M	中文	这个1000万中文数据集由跨多个（指令）类型和多个领域的子集组成。	仅供研究；OpenAI使用条款
Firefly	16M	中文	1,649,398条中文指令，涵盖23个NLP任务	-
OIG-43M数据集	43M	多语言	由LAION和Ontocord.ai共同创建。	-
xP3	79M	多语言	78,883,588条指令，通过提示和数据集收集，跨46种语言和16个NLP任务	-
CodeParrot	-	Python	数据库查询了所有小于1MB的Python文件，得到一个180GB的数据集，包含超过2000万个文件。	-
Alpaca-CoT数据集	-	多语言	指令数据收集	ODC-By
stack-exchange-paired	-	英语	该数据集包含来自Stack Overflow数据转储的问题和答案，用于偏好模型训练。	cc-by-sa-4.0
LangChainDatasets	-	英语	这是一个社区驱动的数据集存储库，用于评估LangChain链和代理的数据集。	-
ParlAI	-	英语	100多个流行数据集集中在一处，对话模型涵盖从开放域闲聊到任务导向对话，再到视觉问答。	-
GPTeacher	-	英语	由GPT-4生成的模块化数据集集合，包括通用指令、角色扮演指令、代码指令和Toolformer	-
silk-road/Wizard-LM-Chinese-instruct-evol	-	中文	Wizard-LM-Chinese	-
MultiWOZ	-	英语	多域Wizard-of-Oz数据集（MultiWOZ），一个完全标记的人类对话集合，跨越多个领域和主题。	apache-2.0