llama-trl

项目介绍：LLaMA-TRL

LLaMA-TRL 是一个基于大语言模型 LLaMA 的项目，旨在通过先进的优化和微调技术提升模型性能。项目的核心在于结合使用 PPO（近端策略优化）和 LoRA（低秩适应）策略进行语言模型的强化学习和参数高效微调。

项目目标

政策优化：使用 PPO 技术来改善 LLaMA 模型的决策能力，使其能够更好地处理内容生成任务。
微调策略：利用 LoRA 技术，通过参数高效微调（PEFT）减少干预参数的数量，提高大规模语言模型适应新任务的效率。
数据收集：从开源项目 GPT-4-LLM 中收集指令跟随数据，以确保模型在处理自然语言指令时的准确性和流畅性。

使用指南

环境设置

开始使用前，需要安装必要的依赖包。可以通过以下命令完成安装：

pip install -r requirements.txt

操作步骤

步骤 1 - 有监督微调

有监督微调是指通过明确的标注数据对模型进行初步训练。以下命令用于执行有监督微调：

torchrun --nnodes 1 --nproc_per_node 8 supervised_finetuning.py \
    --base_model 'decapoda-research/llama-7b-hf' \
    --dataset_name './data/alpaca_gpt4_data.json' \
    --streaming \
    --lr_scheduler_type 'cosine' \
    --learning_rate 1e-5 \
    --max_steps 4000 \
    --output_dir './checkpoints/supervised_llama/'

对于需要进行全权重完整微调，并使用 DeepSpeed 优化的用户，可以安装 DeepSpeed 并运行以下命令：

pip install deepspeed
torchrun --nnodes 1 --nproc_per_node 8 supervised_finetuning_full_weight.py \
    --base_model 'decapoda-research/llama-7b-hf' \
    ...
    --deepspeed "./configs/default_offload_opt_param.json" \
    --output_dir './checkpoints/supervised_llama_full_weight/'

步骤 2 - 奖励模型训练

奖励模型的训练是针对模型生成内容进行评估的过程。以下命令用于奖励模型的训练：

torchrun --nnodes 1 --nproc_per_node 8 training_reward_model.py \
    --model_name 'decapoda-research/llama-7b-hf' \
    --dataset_name './data/comparison_data.json' \
    --output_dir './checkpoints/training_reward_model/'

步骤 3 - 使用 PPO 微调语言模型

在完成上述步骤后，使用 PPO 策略优化语言模型，以提升其生成质量和鲁棒性。以下为相关命令：

accelerate launch --multi_gpu --num_machines 1  --num_processes 8 \
    tuning_lm_with_rl.py \
    --log_with wandb \
    --model_name <LLAMA_FINETUNED_MODEL> \
    ...
    --output_dir './checkpoints/tuning_llama_rl/'