DoReMi：优化语言模型预训练的数据混合方法

在人工智能和自然语言处理领域，大型语言模型的预训练已成为一个热门话题。这些模型通常需要在来自多个不同领域（如网页、书籍、学术文章等）的海量数据上进行训练。然而，如何确定各个领域数据的最佳混合比例一直是一个棘手的问题，尤其是考虑到这些模型将用于各种下游任务，而非针对特定目标分布进行优化。为了解决这个问题，研究人员提出了一种名为DoReMi（Domain Reweighting with Minimax Optimization）的创新算法。

DoReMi的工作原理

DoReMi的核心思想是通过分布鲁棒优化（Distributionally Robust Optimization，DRO）来调整数据混合，使其对目标分布具有鲁棒性。这种方法的独特之处在于它使用一个小型代理模型来动态调整各个领域的权重。具体来说，DoReMi的工作流程如下：

代理模型训练：首先，DoReMi训练一个相对较小的代理模型，使用DRO方法。
动态权重调整：在训练过程中，代理模型会根据其在各个领域上的表现动态调整权重。如果某个领域的损失明显高于预训练的参考模型，该领域的权重会被提高；反之则会被降低。
参考模型的作用：预训练的参考模型提供了每个领域可达到的最佳损失估计，这有助于避免对高熵或困难领域过于悲观。
优化数据混合：通过这种方式，DoReMi最终得到一个优化后的数据混合比例。
大型模型训练：最后，这个优化后的数据混合可以用于训练更大规模的模型，从而显著提高训练效率。

DoReMi工作流程概览

DoReMi的实施和效果

DoReMi的实施相对直接，但其效果却十分显著。根据研究结果，使用仅280M参数的代理模型就能够改善8B参数模型（规模大30倍）的训练过程。具体而言，使用DoReMi优化的数据混合可以让8B模型在仅用原来38%的训练时间内就达到基线模型的性能水平，这意味着训练速度提高了2.6倍。

为了验证DoReMi的效果，研究人员在The Pile数据集上进行了实验。使用120M参数的代理和参考模型，他们对比了使用DoReMi优化的权重和基线权重训练的模型性能。结果表明：

快速收敛：使用DoReMi权重训练的模型在所有任务上都能更快地超越基线模型的单次性能，通常在70k步内就能实现（比基线快3倍）。
全面提升：DoReMi模型在20k步内就超越了基线模型在各项任务上的平均单次性能。
领域性能改善：在22个领域中，有15个领域的困惑度得到了改善或保持相当水平。
整体和最差情况都有提升：DoReMi模型在所有领域的平均困惑度和最差情况困惑度都有所改善。

120M模型在The Pile数据集上的性能对比

DoReMi的实际应用

DoReMi不仅仅是一个理论框架，它还提供了一套完整的工具和指南，使研究人员和开发者能够在自己的项目中应用这种方法。以下是使用DoReMi的一些关键步骤和建议：

数据准备：DoReMi要求数据按领域分类并预处理（包括分词）。数据应组织成特定的目录结构，每个领域对应一个子目录。
配置文件：需要创建一个配置文件，指定每个领域的初始混合权重。这些权重不需要预先归一化。
运行脚本：提供了样例脚本来运行基线模型、代理模型和主模型（完整的DoReMi流程）。
参数调整：
- 参考域权重的选择：可以根据每个领域的数据量设置，或者根据特定领域的重要性进行调整。
- 域权重更新率：默认设置为1，但可以根据具体数据集进行调优。
- 分词器选择：建议使用较新的分词器（如NeoX）以获得更好的性能。
迭代优化：在某些情况下，可能需要多轮DoReMi优化。这尤其适用于初始参考域权重不够理想的情况。
灵活应用：DoReMi允许在子集领域上运行，只需在配置文件中删除不需要的领域即可。