大语言模型训练的数据管理

这是一个精心策划的大语言模型训练数据管理资源列表。论文按照我们的综述论文《大语言模型训练数据管理：一项调查》进行组织。

预训练

领域组成

Lamda：对话应用的语言模型（Arxiv，2022年1月）[论文] [代码]
通过重要性重采样进行语言模型的数据选择（Arxiv，2023年2月）[论文] [代码]
CodeGen2：编程和自然语言大语言模型训练的经验教训（ICLR 2023）[论文] [模型]
DoReMi：优化数据混合加速语言模型预训练（Arxiv，2023年5月）[论文] [代码]
预训练者训练数据指南：测量数据年龄、领域覆盖、质量和毒性的影响（Arxiv，2023年5月）[论文]
SlimPajama-DC：理解大语言模型训练的数据组合（Arxiv，2023年9月）[论文] [模型] [数据集]
DoGE：基于泛化估计的领域重加权（Arxiv，2023年10月）[论文] [代码]
数据混合法则：通过预测语言建模性能优化数据混合（Arxiv，2024年3月）[论文] [代码]
Sheared LLaMA：通过结构化剪枝加速语言模型预训练（ICLR 2024）[论文] [代码]

数据数量

缩放法则
- 神经语言模型的缩放法则（Arxiv，2020年1月）[论文]
- 计算最优大语言模型训练的实证分析（NeurIPS 2022）[论文]
- 揭开缩放法则之谜：第一部分（Arxiv，2024年3月）[论文]
数据重复
- 重复数据学习的缩放法则和可解释性（Arxiv，2022年5月）[论文]
- 我们会用完数据吗？机器学习数据集缩放极限分析（Arxiv，2022年10月）[论文]
- 扩展数据受限的语言模型（Arxiv，2023年5月）[论文] [代码]
- 重复还是不重复：从令牌危机下扩展大语言模型获得的见解（Arxiv，2023年5月）[论文]
- D4：通过文档去重和多样化改进大语言模型预训练（Arxiv，2023年8月）[论文]

数据质量

质量过滤
文本数据质量过滤的实证探索（Arxiv，2021年9月）[论文]
一瞥质量：对网络爬取的多语言数据集的审计（ACL 2022）[论文]
MiniPile挑战：面向数据高效语言模型（Arxiv，2023年4月）[论文] [数据集]
预训练者训练数据指南：测量数据年龄、领域覆盖、质量和毒性的影响（Arxiv，2023年5月）[论文]
教科书就是你所需要的全部（Arxiv，2023年6月）[论文] [代码]
Falcon LLM的RefinedWeb数据集：仅使用网络数据超越精选语料库（NeurIPS 2023）[论文] [数据集]
教科书就是你所需要的全部 II：phi-1.5技术报告（Arxiv，2023年9月）[论文] [模型]
少即是多：调查大规模预训练LLMs的数据修剪（Arxiv，2023年9月）[论文]
Ziya2：以数据为中心的学习是LLMs所需的全部（Arxiv，2023年11月）[论文] [模型]
Phi-2：小型语言模型的惊人能力（博客文章，2023年12月）[文章]
QuRating：为语言模型训练选择高质量数据（ICML 2024）[论文] [代码]
去重
- 去重训练数据使语言模型更好（ACL 2022）[论文] [代码]
- 去重训练数据缓解语言模型的隐私风险（ICML 2022）[论文]
- 大规模噪声鲁棒去重（ICLR 2022）[论文]
- SemDeDup：通过语义去重实现网络规模的数据高效学习（Arxiv，2023年3月）[论文] [代码]
毒性过滤
- 去毒化语言模型存在边缘化少数群体声音的风险（NAACL-HLT，2021）[论文] [代码]
- 去毒化语言模型的挑战（EMNLP Findings，2021）[论文]
- 盒子里有什么？对Common Crawl语料库中不良内容的初步分析（Arxiv，2021年5月）[论文] [代码]
- 预训练者训练数据指南：测量数据年龄、领域覆盖、质量和毒性的影响（Arxiv，2023年5月）[论文]
多样性和年龄
- 超越规模：多样性系数作为数据质量指标表明LLMs在形式多样的数据上进行预训练（Arxiv，2023年6月）[论文]
- D2修剪：用于平衡数据修剪中多样性和难度的消息传递（Arxiv，2023年10月）[论文] [代码]
- 预训练者训练数据指南：测量数据年龄、领域覆盖、质量和毒性的影响（Arxiv，2023年5月）[论文]
*社会偏见
- 记录大型网络文本语料库：以Colossal Clean Crawled Corpus为例的案例研究（EMNLP 2021）[论文]
- 预训练语言模型去偏技术有效性的实证调查（ACL，2022）[论文] [代码]
- 谁的语言被视为高质量？测量文本数据选择中的语言意识形态（EMNLP，2022）[论文] [代码]
- 从预训练数据到语言模型再到下游任务：追踪导致不公平NLP模型的政治偏见轨迹（ACL 2023）[论文] [代码]
*幻觉
- 预训练语言模型如何捕捉事实知识？因果启发的分析（ACL 2022）[论文]
- 对话模型中幻觉的起源：是数据集还是模型的问题？（NAACL 2022）[论文]
- 大型语言模型在推理任务中产生幻觉的来源（EMNLP Findings，2023）(https://arxiv.org/abs/2305.14552)

不同方面之间的关系

训练者指南：衡量数据年龄、领域覆盖、质量和毒性对训练数据的影响（Arxiv，2023年5月）[论文]
SlimPajama-DC：理解大语言模型训练中的数据组合（Arxiv，2023年9月）[论文] [模型] [数据集]
DeepSeek LLM：以长期主义扩展开源语言模型（Arxiv，2024年1月）[论文] [模型]
数据过滤的扩展定律 -- 数据整理不能忽视计算（CVPR 2024）[论文] [代码]
高效的数据混合：语言模型预训练的二元扩展定律（Arxiv，2024年5月）[论文]

有监督微调

任务组合

超自然指令：通过1600多个任务的声明性指令实现泛化（EMNLP 2022）[论文] [数据集]
微调的语言模型是零样本学习器（ICLR 2022）[论文] [数据集]
多任务提示训练实现零样本任务泛化（ICLR 2022）[论文] [代码]
扩展指令微调的语言模型（Arxiv，2022年10月）[论文] [数据集]
OPT-IML：通过泛化视角扩展语言模型指令元学习（Arxiv，2022年12月）[论文] [模型]
Flan集合：为有效指令调优设计数据和方法（ICML，2023）[论文] [数据集]
探索训练专家语言模型相对于指令调优的优势（ICML，2023）[论文] [代码]
使用跨任务最近邻的数据高效微调（ACL Findings，2023）[论文] [代码]
可能只需0.5%的数据：低训练数据指令调优的初步探索（Arxiv，2023年5月）[论文]
骆驼能走多远？探索开放资源上指令调优的现状（Arxiv，2023年6月）[论文] [代码]
有监督微调数据组成如何影响大语言模型的能力（Arxiv，2023年10月）[论文]
LESS：为目标指令调优选择有影响力的数据（Arxiv，2024年2月）[论文] [代码]
指令很重要，一种简单而有效的特定任务指令调优任务选择方法（Arxiv，2024年4月）[论文]

数据质量

指令质量
自我优化：通过自我反馈进行迭代改进（Arxiv，2023年3月）[论文][项目]
Lima：对齐中更少即是更多（Arxiv，2023年5月）[论文] [数据集]
通过扩展高质量指令对话来增强聊天语言模型（Arxiv，2023年5月）[论文] [代码]
SelFee：由自我反馈生成赋能的迭代自我修正大语言模型（博客文章，2023年5月）[项目]
INSTRUCTEVAL：面向指令调整大语言模型的全面评估（Arxiv，2023年6月）[论文] [代码]
指令挖掘：大语言模型的高质量指令数据选择（Arxiv，2023年7月）[论文] [代码]
AlpaGasus：用更少的数据训练更好的Alpaca（Arxiv，2023年7月）[论文]
利用大卫对抗歌利亚的力量：探索不使用闭源模型的指令数据生成（Arxiv，2023年8月）[论文]
通过指令反向翻译实现自我对齐（Arxiv，2023年8月）[论文]
SELF：大语言模型的语言驱动自我进化（Arxiv，2023年10月）[论文]
LoBaSS：衡量监督微调数据的可学习性（Arxiv，2023年10月）[论文]
Tuna：使用大语言模型反馈进行指令调优（EMNLP 2023）[论文] [代码]
开源大语言模型指令调优的自动指令优化（Arxiv，2023年11月）[论文] [代码]
MoDS：指令调优的面向模型数据选择（Arxiv，2023年11月）[论文] [代码]
一次性学习作为大语言模型的指令数据勘探者（Arxiv，2023年12月）[论文]
大语言模型标签高效监督微调的实验设计框架（Arxiv，2024年1月）[论文]
超级过滤：快速指令调优的弱到强数据过滤（Arxiv，2024年2月）[论文] [代码]
SelectIT：通过不确定性感知自我反思进行大语言模型的选择性指令调优（Arxiv，2024年2月）[论文] [代码]
从数量到质量：通过自我引导数据选择提升大语言模型指令调优性能（NAACL 2024）[论文] [代码]
选择性反思调优：大语言模型指令调优的学生选择数据回收（ACL Findings 2024）[论文] [代码]
小型语言模型能够为大型语言模型选择指令调优训练数据（Arxiv，2024年2月）[论文]
小到大（S2L）：通过总结小模型训练轨迹实现大语言模型微调的可扩展数据选择（Arxiv，2024年3月）[论文]
用于稳健语言模型微调的自动化数据策划（Arxiv，2024年3月）[论文]
SHED：基于Shapley值的指令微调自动化数据集优化（Arxiv，2024年5月）[论文]
指令多样性
自我指导：通过自生成指令对齐语言模型（ACL 2023）[论文][代码]
- 斯坦福 Alpaca（2023年3月）[代码]
- 通过扩展高质量指令对话来增强聊天语言模型（Arxiv，2023年5月）[论文] [代码]
- Lima：对齐时少即是多（Arxiv，2023年5月）[论文] [数据集]
- #InsTag：指令标记用于分析大型语言模型的监督微调（Arxiv，2023年8月）[论文] [代码]
- 探索-指导：通过主动探索增强特定领域的指令覆盖（Arxiv，2023年10月）[论文] [代码]
- DiffTune：基于扩散的多样化指令调优数据生成方法（NeurIPS 2023）[论文]
- 自演化多样数据采样以实现高效指令调优（Arxiv，2023年11月）[论文] [代码]
- 数据多样性对稳健指令调优至关重要（Arxiv，2023年11月）[论文]
- 聚类与排序：通过专家对齐质量估计实现多样性保留的指令选择（Arxiv，2024年2月）[论文] [代码]
- 大型语言模型指令挖掘的多视图融合（信息融合，2024年10月）[论文]
指令复杂性
- WizardLM：赋予大型语言模型执行复杂指令的能力（Arxiv，2023年4月）[论文] [代码]
- WizardCoder：用Evol-Instruct增强代码大型语言模型（Arxiv，2023年6月）[论文] [代码]
- Orca：从GPT-4的复杂解释轨迹中渐进学习（Arxiv，2023年6月）[论文] [代码]
- 复杂性和对齐之间内在关系的初步研究（Arxiv，2023年8月）[论文]
- #InsTag：指令标记用于分析大型语言模型的监督微调（Arxiv，2023年8月）[论文] [代码]
- 大型语言模型能否理解真实世界的复杂指令？（Arxiv，2023年9月）[论文] [基准]
- Followbench：大型语言模型的多层次细粒度约束遵循基准（Arxiv，2023年10月）[论文] [代码]
- Conifer：提高大型语言模型复杂约束指令遵循能力（Arxiv，2024年2月）[论文] [代码]
- 从复杂到简单：增强大型语言模型的多约束复杂指令遵循能力（Arxiv，2024年4月）[论文] [代码]
*提示设计
重新构建指令提示以适应gptk的语言（ACL Findings, 2022）[论文] [代码]
提示偏差：连续提示离散化解释的奇特案例（NAACL, 2022）[论文] [代码]
通过困惑度估计揭示语言模型中的提示（Arxiv, 2022年12月）[论文]
你读了说明了吗？重新思考任务定义在指令学习中的有效性（ACL, 2023）[论文] [代码]
模型真的学会了遵循指令吗？指令调优的实证研究（ACL, 2023）[论文]
模仿专有大语言模型的虚假承诺（Arxiv, 2023年5月）[论文]
探索指令调优的格式一致性（Arxiv, 2023年7月）[论文]
注意指令：基于提示学习的一致性和交互的全面评估（Arxiv, 2023年10月）[论文]
指令调优的动态：大语言模型的每种能力都有自己的成长速度（Arxiv, 2023年10月）[论文]
*幻觉
- Lima：对齐中少即是多（Arxiv, 2023年5月）[论文] [数据集]
- AlpaGasus：用更少的数据训练更好的Alpaca（Arxiv, 2023年7月）[论文]
- 指令挖掘：大语言模型的高质量指令数据选择（Arxiv, 2023年7月）[论文] [代码]
- Platypus：快速、廉价且强大的大语言模型优化（NeurIPS 2023 Workshop）[论文] [代码]

数据数量

探索指令数据规模对大语言模型的影响：基于真实用例的实证研究（Arxiv, 2023年3月）[论文]
Lima：对齐中少即是多（Arxiv, 2023年5月）[论文] [数据集]
也许只需0.5%的数据：低训练数据指令调优的初步探索（Arxiv, 2023年5月）[论文]
大语言模型学习数学推理的缩放关系（Arxiv, 2023年8月）[论文] [代码]
监督微调数据组成如何影响大语言模型的能力（Arxiv, 2023年10月）[论文]
指令调优的动态：大语言模型的每种能力都有自己的成长速度（Arxiv, 2023年10月）[论文]
当扩展遇到大语言模型微调：数据、模型和微调方法的影响（ICLR 2024）[论文]

动态数据高效学习

训练影响数据
- 数据节食下的自然语言理解：NLP分类任务的动态数据子集选择（SustaiNLP, 2023）[论文]
- 成为自我指导：为最小指令调优引入早停标准（Arxiv, 2023年7月）[论文]
- 主动指令调优：通过训练提示敏感任务改善跨任务泛化能力（EMNLP 2023）[论文] [代码]
数据影响训练
- Dynosaur：指令调优数据策划的动态增长范式（Arxiv, 2023年5月）[论文] [代码]
- OpenChat：利用混合质量数据推进开源语言模型（Arxiv, 2023年9月）[论文] [代码]
- 监督微调数据组成如何影响大语言模型的能力（Arxiv, 2023年10月）[论文]
- 基于数据课程的大语言模型对比后训练（Arxiv, 2023年10月）[论文]
- InsCL：一种用于大语言模型指令微调的数据高效持续学习范式（NAACL 2024）[论文]
- Conifer：改善大语言模型复杂约束指令遵循能力（Arxiv, 2024年2月）[论文] [代码]
- 策略性数据排序：通过课程学习增强大语言模型性能（Arxiv, 2024年5月）[论文]