Lion：专有大型语言模型的对抗性蒸馏

Lion项目:从专有大模型中提取精华的对抗性蒸馏框架

在人工智能和自然语言处理领域,大型语言模型(LLM)的发展日新月异。然而,许多顶尖的LLM都是封闭源代码的专有模型,这在一定程度上限制了学术界和开源社区的创新。针对这一挑战,来自多所高校的研究人员提出了一个名为"Lion"的创新项目,旨在通过对抗性蒸馏的方法,从专有的大型语言模型中提取知识,训练出一个小型但高性能的开源语言模型。

Lion项目概述

Lion项目的核心是一个新颖的对抗性蒸馏框架,该框架巧妙地利用了一个封闭源的大型语言模型来同时扮演教师、裁判和生成器三种角色,从而训练出一个更小巧但性能出色的学生模型。这个过程分为三个主要阶段:

模仿阶段:让学生模型的输出与教师模型对齐
鉴别阶段:识别出具有挑战性的样本
生成阶段:产生新的难样本以提高学生模型的能力

Lion项目概览

这种创新的方法使得Lion能够在保持较小模型规模的同时,达到接近大型专有模型的性能。

Lion模型的特点与优势

开源性: Lion模型是完全开源的,这使得研究人员和开发者可以自由地使用、研究和改进该模型。
高效性: 通过对抗性蒸馏,Lion在保持较小模型规模的同时,能够获得接近大型专有模型的性能。
灵活性: Lion框架可以适用于各种规模的语言模型,为不同应用场景提供了灵活的选择。
创新性: 项目提出的对抗性蒸馏框架是一种新颖的方法,为语言模型的知识提取和压缩开辟了新的研究方向。

Lion模型的训练过程

Lion模型的训练过程是一个迭代的过程,每次迭代包含了前面提到的三个主要阶段。以下是对这个过程的详细解析:

1. 模仿阶段

在这个阶段,学生模型(Lion)会学习模仿教师模型(专有大型语言模型)的输出。具体步骤包括:

获取教师模型对训练池中样本的响应
基于教师模型的响应对学生模型进行指令微调

这个过程使用了分布式训练技术,以提高训练效率:

torchrun --nproc_per_node=8 --master_port=<your_random_port> src/train.py \
    --model_name_or_path <path_to_hf_converted_ckpt_and_tokenizer> \
    --data_path <path_to_chatgpt_inference_for_the_Train_Pool> \
    --bf16 True \
    --output_dir result \
    --num_train_epochs 3 \
    --model_max_length 1024 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 600 \
    --save_total_limit 1 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \
    --lr_scheduler_type "cosine" \
    --logging_steps 1 \
    --fsdp "full_shard auto_wrap" \
    --fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \
    --tf32 True