suzume-llama-3-8B-multilingual-orpo-borda-top75

项目介绍：Suzume-llama-3-8B-multilingual-orpo-borda-top75

背景介绍

Suzume ORPO项目是对基础模型lightblue/suzume-llama-3-8B-multilingual进行微调的成果。微调过程中使用了lightblue/mitsu数据集，并采用了ORPO方法进行训练。项目的最终目标是开发出性能卓越且适用于多语言环境的语言模型。

模型列表

本项目中，通过对数据集不同部分的响应进行训练，生成了多个版本的模型：

全范围响应模型：训练数据包含数据集中所有提示的最高和最低响应。模型地址：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-full
Top 75% 响应模型：只训练数据集中75%表现最一致提示的最高和最低响应。模型地址：lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75
Top 50% 响应模型：对于50%表现最一致的提示，进行最高和最低响应的训练。lightblue/suzume-llama-3-8B-multilingual-orpo-borda-half
Top 25% 响应模型：选取25%排名最为一致的提示用于训练。lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top25

训练结果

模型在多种语言上进行了MT-Bench评分对比，评估结果显示，与基础模型相比，ORPO模型在多数语言上都表现出显著改进，尤其在某些语言上取得了所有评价模型中的最高分。例如，在中文上，lightblue/suzume-llama-3-8B-multilingual-orpo-borda-top75取得了7.77的高分，高于基础模型7.11的成绩。

训练数据和配置

模型训练过程中，使用到了lightblue/mitsu_full_borda数据集。训练过程采用了ORPO方法和多个配置参数，包括以下设置：

学习率：8e-06
训练批量大小：1
使用多GPU进行分布式训练
共进行了1个周期的训练

项目未来

虽然当前模型由于使用商业数据生成训练集而限于非商业用途，但项目团队正在开发新的商业可用版本，值得期待。

转载引用

若要引用本项目结果或研究，可以使用以下格式：

@article{devine2024sure,
  title={Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.18952},
  year={2024}
}