Step-DPO：大型语言模型长链推理的逐步偏好优化

Xin Lai、 Zhuotao Tian、 Yukang Chen、 Senqiao Yang、 Xiangru Peng、 Jiaya Jia

本仓库提供了Step-DPO的实现，这是一种简单、有效且数据高效的方法，用于提升大型语言模型的长链推理能力，同时还提供了一个数据构建流程，可生成包含1万对逐步偏好对的高质量数据集。

值得注意的是，Step-DPO仅使用1万条数据和数百步训练就将Qwen2-7B-Instruct在MATH上的性能从53.0%提升到58.6%，在GSM8K上从85.5%提升到87.9%！

此外，Step-DPO应用于Qwen2-72B-Instruct后，在MATH和GSM8K测试集上分别达到了**70.8%和94.0%**的得分，超越了一系列闭源模型，包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro，而且无需任何额外技巧。

新闻

[2024.7.7] 我们发布了数据构建流程的脚本！你可以使用这些脚本自行构建数据集！
[2024.7.1] 我们发布了模型Qwen2-7B-Instruct-Step-DPO的演示。欢迎在演示上试用！
[2024.6.28] 我们发布了Step-DPO的预印本和此GitHub仓库，包括训练/评估脚本、预训练模型和数据。

数据集

我们为Step-DPO构建了一个包含1万条数学偏好数据的数据集，可从以下链接下载。

数据集	大小	链接
xinlai/Math-Step-DPO-10K	10,795	🤗 Hugging Face

模型

值得注意的是，Qwen2-72B-Instruct + Step-DPO模型在MATH和GSM8K测试集上分别达到了**70.8%和94.0%**的成绩。Step-DPO还为各种模型带来了显著的改进，如下所示。欢迎下载使用。

模型	大小	MATH	GSM8K	Odyssey-MATH	链接
Qwen2-7B-Instruct	7B	53.0	85.5	-	-
Qwen2-7B-Instruct + Step-DPO	7B	58.6 (+5.6)	87.9 (+2.4)	-	🤗 HF
DeepSeekMath-RL	7B	51.7	88.2	-	-
DeepSeekMath-RL + Step-DPO	7B	53.2 (+1.5)	88.7 (+0.5)	-	🤗 HF
Qwen2-7B-SFT	7B	54.8	88.2	-	🤗 HF
Qwen2-7B-SFT + Step-DPO	7B	55.8 (+1.0)	88.5 (+0.3)	-	🤗 HF
Qwen1.5-32B-SFT	32B	54.9	90.0	-	🤗 HF
Qwen1.5-32B-SFT + Step-DPO	32B	56.9 (+2.0)	90.9 (+0.9)	-	🤗 HF
Qwen2-57B-A14B-SFT	57B	54.6	89.8	-	🤗 HF
Qwen2-57B-A14B-SFT + Step-DPO	57B	56.5 (+1.9)	90.0 (+0.2)	-	🤗 HF
Llama-3-70B-SFT	70B	56.9	92.2	-	🤗 HF
Llama-3-70B-SFT + Step-DPO	70B	59.5 (+2.6)	93.3 (+1.1)	-	🤗 HF
Qwen2-72B-SFT	72B	61.7	92.9	44.2	🤗 HF
Qwen2-72B-SFT + Step-DPO	72B	64.7 (+3.0)	93.9 (+1.0)	47.0 (+2.8)	🤗 HF
Qwen2-72B-Instruct	72B	69.4	92.4	47.0	-
Qwen2-72B-Instruct + Step-DPO	72B	70.8 (+1.4)	94.0 (+1.6)	50.1 (+3.1)	🤗 HF

注：Odyssey-MATH包含竞赛级数学问题。

安装

conda create -n step_dpo python=3.10
conda activate step_dpo

pip install -r requirements.txt

训练

预训练权重

我们使用Qwen2、Qwen1.5、Llama-3和DeepSeekMath模型作为预训练权重，并使用Step-DPO对它们进行微调。根据你的选择下载。

预训练权重
Qwen/Qwen2-7B-Instruct
deepseek-ai/deepseek-math-7b-rl
xinlai/Qwen2-7B-SFT
xinlai/Qwen1.5-32B-SFT
xinlai/Qwen2-57B-A14B-SFT
xinlai/Llama-3-70B-SFT
xinlai/Qwen2-72B-SFT
Qwen/Qwen2-72B-Instruct

注意：带有'-SFT'的模型是基于开源基础模型，使用我们的29.9万条SFT数据进行有监督微调的。你可以在我们的SFT模型或现有的开源指令模型上执行Step-DPO。

以下是在Qwen/Qwen2-72B-Instruct上执行Step-DPO的脚本示例：

ACCELERATE_LOG_LEVEL=info accelerate launch --config_file accelerate_configs/deepspeed_zero3_cpu.yaml --mixed_precision bf16 \
    --num_processes 8 \
    train.py configs/config_full.yaml \
    --model_name_or_path="Qwen/Qwen2-72B-Instruct" \
    --data_path="xinlai/Math-Step-DPO-10K" \
    --per_device_train_batch_size=2 \
    --gradient_accumulation_steps=8 \
    --torch_dtype=bfloat16 \
    --bf16=True \
    --beta=0.4 \
    --num_train_epochs=4 \
    --save_strategy='steps' \
    --save_steps=200 \
    --save_total_limit=1 \
    --output_dir=outputs/qwen2-72b-instruct-step-dpo \
    --hub_model_id=qwen2-72b-instruct-step-dpo \
    --prompt=qwen2-boxed

评估

以下是在GSM8K和MATH测试集上评估微调模型的脚本示例：

python eval_math.py \
    --model outputs/qwen2-72b-instruct-step-dpo \
    --data_file ./data/test/GSM8K_test_data.jsonl \
    --save_path 'eval_results/gsm8k/qwen2-72b-instruct-step-dpo.json' \
    --prompt 'qwen2-boxed' \
    --tensor_parallel_size 8

python eval_math.py \
    --model outputs/qwen2-72b-instruct-step-dpo \
    --data_file ./data/test/MATH_test_data.jsonl \
    --save_path 'eval_results/math/qwen2-72b-instruct-step-dpo.json' \
    --prompt 'qwen2-boxed' \
    --tensor_parallel_size 8

数据构建流程

我们发布了构建Step-DPO数据的脚本，位于data_pipeline/目录中。请按以下说明操作。

cd Step-DPO

# 步骤1：错误收集
# 执行前，请设置MODEL_PATH、PRED_PATH、EVAL_PROMPT
bash data_pipeline/step1.sh

# 步骤2：通过GPT-4定位错误步骤
# 执行前，请设置OPENAI_BASE_URL、OPENAI_API_KEY
bash data_pipeline/step2.sh

# 步骤3：由模型自身纠正
# 执行前，请设置MODEL_PATH、EVAL_PROMPT、JSON_FILE、PRED_PATH、SAVE_PATH
bash data_pipeline/step3.sh

# 最后，获取结果数据集
# 执行前，请设置EVAL_PROMPT、JSON_FILE、PRED_PATH、SAVE_PATH
bash data_pipeline/merge.sh

部署

对于部署，请直接使用以下命令：

python3 app.py --model_path_or_name xinlai/Qwen2-7B-Instruct-Step-DPO

示例

致谢

本仓库基于alignment-handbook、DeepSeekMath和MetaMath。

非常感谢他们的努力！

引用

如果您在研究中发现这个项目有用，请考虑引用我们：

@article{lai2024stepdpo,
  title={Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs},
  author={Xin Lai and Zhuotao Tian and Yukang Chen and Senqiao Yang and Xiangru Peng and Jiaya Jia},
  journal={arXiv:2406.18629},
  year={2024}
}