LLM数据集:大语言模型训练的高质量数据集资源

llm-datasets

数据集质量的重要性

在大语言模型(LLM)的开发过程中,数据是最宝贵的资产。虽然我们无法像评估模型那样直接评估数据集,但高质量的数据集通常具有以下特征:

对于数学问题,使用Python解释器可以很容易地衡量准确性。但对于开放式的主观问题,这几乎是不可能的。另一方面,按主题对数据集进行聚类是衡量多样性的好方法。最后,可以使用其他LLM作为评判来评估复杂性。

一旦模型在下一个标记预测任务上进行了预训练,就需要通过监督微调将其转变为能够回答问题和完成任务的助手。这些数据集包含指令和输出对,用于训练LLM超越其预训练目标。这里列出的所有数据集都应该采用宽松的许可证(Apache 2.0、MIT、cc-by-4.0等)。

通用数据集的目标是通过让模型接触广泛的高质量数据,将基础模型转变为多才多艺、能力出众的助手。这些数据集通常包括真实世界和合成数据的多样化组合,通常使用GPT-4等模型生成。

以下是一些代表性的通用数据集:

通用数据集示例

LLM在数学推理和形式逻辑方面往往存在困难,这促使了专门数据集的创建。这些数据集超越了纯数学,涵盖了需要系统思维和逐步推理的广泛问题,最终使LLM能够处理涉及逻辑推理和定量分析的复杂现实世界挑战。

一些代表性的数学与逻辑数据集包括:

这些数据集旨在增强LLM的数学推理能力,使其能够解决更复杂的数学问题和逻辑挑战。

对于缺乏专门预训练的LLM来说,代码是另一个具有挑战性的领域。代码数据集包含多种编程语言的示例,用于微调LLM并增强其理解、生成和分析代码的能力,使其能够作为有效的编码助手。

一些值得注意的代码数据集包括:

CodeFeedback-Filtered-Instruction: 包含157k个样本,是Magicoder-OSS-Instruct、ShareGPT(Python)、Magicoder-Evol-Instruct和Evol-Instruct-Code的过滤版本。
Tested-143k-Python-Alpaca: 包含143k个样本,是通过自动测试确保高质量的生成Python代码集合。
glaive-code-assistant: 包含136k个样本,是问题和解决方案的合成数据,其中约60%是Python样本。
Magicoder-Evol-Instruct-110K: 包含110k个样本,是evol-codealpaca-v1的去污染版本。

代码数据集示例

这些数据集旨在提高LLM在代码理解、生成和分析方面的能力,使其成为更有效的编程助手。

许多数据集专注于指令和输出对,但聊天模型通常用于对话设置。对话和角色扮演数据集让LLM接触到真实对话的模式、细微差别和上下文相关性,使其能够生成更自然、更具吸引力的对话。

一些代表性的对话和角色扮演数据集包括:

这些数据集有助于提高LLM在对话和角色扮演场景中的表现,使其能够生成更自然、更有吸引力的对话。

创建高质量数据集的关键在于仔细策划一组相关、准确和信息丰富的多样化示例,而不是简单地最大化数据集大小。

开始时,可以从各种来源(开源或非开源)聚合可用数据,并应用数据去重和数据质量过滤等过滤器。如果初始数据集较小或不足,可以考虑综合生成额外数据,以反映其质量和风格。通过评估模型性能、识别差距以及收集或生成数据来解决这些不足,迭代探索和改进数据集。

以下是一些有用的数据处理工具:

精确去重: 通过数据规范化(如将文本转换为小写)、哈希生成(如为每个样本创建MD5或SHA-256哈希)和重复删除来移除相同的样本。
模糊去重:
- MinHash: 使用哈希、排序和Jaccard相似度进行模糊去重(首选技术)。
- BLOOM过滤器: 使用哈希和固定大小向量进行模糊去重。
去污染: 使用精确或模糊过滤移除与测试集过于接近的样本。

对于SFT数据集:

对于预训练数据集:

sentence-transformers: 用于处理流行语言嵌入模型的Python模块。
Lilac: 用于为LLM策划更好数据的工具,被NousResearch、databricks、cohere、Alignment Lab AI等使用。它还可以应用过滤器。
Nomic Atlas: 与指令数据交互以发现洞察并存储嵌入。
text-clustering: Huggingface的文本数据聚类框架。
BunkaTopics: 数据清理和主题建模可视化。
Autolabel: 使用流行的语言模型自动标记数据。