
awesome-instruction-datasets:训练ChatGPT等大模型的指令数据集
awesome-instruction-datasets是一个收集用于训练像ChatGPT、LLaMA、Alpaca等指令跟随型大语言模型的高质量开源指令数据集的项目。本文将对该项目进行全面介绍,并整理相关学习资源,为研究人员和开发者提供参考。
项目简介
该项目旨在提供一个全面的指令调优数据集列表,这些数据集被用于各种大型语言模型的指令跟随训练。项目收集了多个来源的数据集,包括人工标注和自动生成的数据,涵盖了多语言、多任务场景。

主要内容
-
指令数据集列表
- 包含数据集名称、来源、数量、语言、生成方式等信息
- 覆盖英文、中文、多语言等不同语种
- 涉及通用指令、对话、代码生成等多种任务
-
RLHF(基于人类反馈的强化学习)数据集
-
开源聊天语言模型列表
重要数据集
- Stanford Alpaca: 斯坦福发布的52K指令数据集,用于训练7B Alpaca模型
- BELLE: 链家AI Lab发布的150万中文指令数据集
- GPT4All: 80万多语言指令数据集
- Anthropic's HH-RLHF: 22K英文人类偏好比较数据集
