LLMBox | 训练 | 使用

LLMBox

LLMBox是一个用于实现大型语言模型（LLMs）的综合库，包括统一的训练流程和全面的模型评估。LLMBox旨在成为训练和使用LLMs的一站式解决方案。通过实用的库设计，我们在训练和使用阶段都实现了高度的灵活性和效率。

主要特点

训练

**多样化的训练策略：**我们支持多种训练策略，包括监督微调（SFT）、预训练（PT）、PPO和DPO。
**全面的SFT数据集：**我们支持9个SFT数据集作为训练输入。
**分词器词汇合并：**我们支持分词器合并功能以扩展词汇表。
**数据构建策略：**我们目前支持合并多个数据集进行训练。Self-Instruct和Evol-Instruct也可用于处理数据集。
**参数高效微调：**在SFT或PT中支持LoRA和QLoRA。
**高效训练：**我们支持Flash Attention和Deepspeed以实现高效训练。

使用

**极速快捷：**通过管理前缀的KV缓存，我们可以将本地推理速度提高多达6倍🚀。
**全面评估：**56+个常用于评估LLMs的数据集和基准测试。
**评估方法：**准确重现OpenAI、LLaMA、Mistral和其他模型原始论文的结果。
**上下文学习：**我们支持各种ICL策略，包括KATE、GlobalE和APE。
**思维链：**对于某些数据集，我们支持三种类型的CoT评估：基础、由少到多和pal。
**vLLM和Flash Attention支持：**我们还支持vLLM和Flash Attention以实现高效推理。
**量化：**支持BitsAndBytes和GPTQ量化。

文档

有关更多详细信息，请参阅文档。

快速开始

安装

git clone https://github.com/RUCAIBox/LLMBox.git && cd LLMBox
pip install -r requirements.txt

如果您只评估OpenAI（或兼容OpenAI的模型，如DeepSeek、Perplexity），可以安装最小要求requirements-openai.txt。

对于安装问题，请参阅疑难解答。

<details> <summary>更新LLMBox</summary>

目前，您可以简单地从GitHub拉取最新的存储库来更新LLMBox。

git pull

如果遇到合并冲突，请尝试先丢弃、暂存或提交您的本地更改。

git checkout local_changes && git add -p && git commit -m "local changes"
git checkout main
git pull

上述命令展示了如何将本地更改提交到新分支，然后更新LLMBox。

</details>

训练快速开始

您可以从使用deepspeed3训练基于LLaMA-2（7B）的SFT模型开始：

cd training
bash download.sh
bash bash/run_ds3.sh

使用快速开始

要使用您的模型或评估现有模型，您可以运行以下命令：

python inference.py -m gpt-3.5-turbo -d copa  # --num_shot 0 --model_type chat

这默认在CoPA数据集上以零样本方式运行OpenAI GPT 3.5 turbo模型。

训练

LLMBox训练支持各种训练策略和数据集构建策略，以及一些提高效率的模块。您可以使用以下命令训练您的模型：

python train.py \
    --model_name_or_path meta-llama/Llama-2-7b-hf \
    --data_path data/ \
    --dataset alpaca_data_1k.json \
    --output_dir $OUTPUT_DIR \
    --num_train_epochs 2 \
    --per_device_train_batch_size 8 \
    --gradient_accumulation_steps 2 \
    --save_strategy "epoch" \
    --save_steps 2 \
    --save_total_limit 2 \
    --learning_rate 1e-5 \
    --lr_scheduler_type "constant"

或者，您可以使用以下预设的bash脚本来训练您的模型：

合并分词器

如果您想在原始语言模型（如LLaMA）不能很好支持的语言或标记的语料库上预训练模型，我们提供了分词器合并功能，使用sentencepiece根据语料库扩展词汇表。您可以查看merge_tokenizer.py获取详细信息。请按照预训练指南进行操作。

bash bash/run_7b_pt.sh

合并数据集

如果您想用多个数据集的混合来训练模型，可以向LLMBox传递一个数据集文件或名称列表。LLMBox将把每个文件或名称转换为PTDataset或SFTDataset，并将它们合并在一起构建一个组合数据集。您还可以通过向LLMBox传递一个浮点数列表来设置每个数据集的合并比率。请按照合并数据集指南进行操作。

bash bash/run_7b_hybrid.sh

Self-Instruct和Evol-Instruct

由于手动创建高质量的指令数据来训练模型非常耗时且劳动密集，提出了Self-Instruct和Evol-Instruct，使用LLM而不是人类来创建大量不同复杂程度的指令数据。LLMBox支持Self-Instruct和Evol-Instruct来增强或改进输入数据文件。请按照Self-Insturct和Evol-Instruct指南进行操作。

python self_instruct/self_instruct.py --seed_tasks_path=seed_tasks.jsonl

有关更多详细信息，请查看训练文档。

使用

我们广泛支持Huggingface模型（如LLaMA-3、Mistral或您正在构建的模型）、OpenAI、Anthropic、QWen和其他OpenAI兼容模型以供进一步使用。完整的模型后端列表：点击这里。

目前支持共56+个常用数据集，包括：HellaSwag、MMLU、GSM8K、GPQA、AGIEval、CEval和CMMLU。完整的数据集列表：点击这里。

CUDA_VISIBLE_DEVICES=0 python inference.py \
  -m llama-2-7b-hf \
  -d mmlu agieval:[English] \
  --model_type chat \
  --num_shot 5 \
  --ranking_type ppl_no_option

有关更多示例，请参阅基准测试LLaMA3。

<table> <tr> <td colspan=4 align="center">性能</td> </tr> <tr> <td rowspan=2>模型</td> <td><code>get_ppl</code></td> <td><code>get_prob</code></td> <td><code>generation</code></td> </tr> <tr> <td>Hellaswag（0样本）</td> <td>MMLU（5样本）</td> <td>GSM（8样本）</td> </tr> <tr> <td>GPT-3.5 Turbo</td> <td>79.98</td> <td>69.25</td> <td>75.13</td> </tr> <tr> <td>LLaMA-2（7B）</td> <td>76</td> <td>45.95</td> <td>14.63</td> </tr> </table>

高效评估

我们默认启用前缀缓存以实现高效评估。还支持vLLM。

<table> <tr> <td colspan=6 align="center">时间</td> </tr> <tr> <td rowspan=2>模型</td> <td rowspan=2>高效方法</td> <td><code>get_ppl</code></td> <td><code>get_prob</code></td> <td><code>generation</code></td> </tr> <tr> <td>Hellaswag（零样本）</td> <td>MMLU（五样本）</td> <td>GSM（八样本）</td> </tr> <tr> <td rowspan=3>LLaMA-2 (7B)</td> <td>原始</td> <td>0:05:32</td> <td>0:18:30</td> <td>2:10:27</td> </tr> <tr> <td>vLLM</td> <td>0:06:37</td> <td>0:14:55</td> <td>0:03:36</td> </tr> <tr> <td>前缀缓存</td> <td>0:05:48</td> <td>0:05:51</td> <td>0:17:13</td> </tr> </table>

您也可以使用以下命令来使用vllm：

python inference.py -m ../Llama-2-7b-hf -d mmlu:abstract_algebra,anatomy --vllm True  # --prefix_caching False --flash_attention False

要使用量化进行评估，您可以使用以下命令：

python inference.py -m model -d dataset --load_in_4bits  # --load_in_8_bits 或 --gptq

评估方法

支持多种评估方法：

<table> <tr> <td>数据集</td> <td>评估方法</td> <td>变体（排序类型）</td> </tr> <tr> <td>生成数据集</td> <td colspan=2><code>generation</code></td> </tr> <tr> <td rowspan=2>多项选择数据集</td> <td><code>get_ppl</code></td> <td><code>ppl_no_option</code>, <code>ppl</code></td> </tr> <tr> <td><code>get_prob</code></td> <td><code>prob</code></td> </tr> </table>

默认情况下，我们对多项选择数据集使用带有ppl_no_option排序类型的get_ppl方法，对生成数据集使用generation方法。您也可以使用以下命令为多项选择数据集使用get_prob方法或get_ppl的ppl变体：

python inference.py -m model -d dataset --ranking_type prob  # 或 ppl

我们还支持某些数据集的上下文学习和思维链评估：

python inference.py -m model -d dataset --kate  # --globale 或 --ape
python inference.py -m model -d dataset --cot least_to_most  # --base 或 --pal

有关模型使用的更详细说明，请查看utilization文档。

贡献

如果您遇到任何问题或有任何建议，请通过提交问题告诉我们。

我们欢迎所有从错误修复到新功能和扩展的贡献。

我们希望所有贡献都在问题跟踪器中讨论并通过PR进行。

有关更多详细信息，请查看CONTRIBUTING文档。

我们感谢以下贡献者对LLMBox的贡献：

@xansar修复了多个复杂问题，如批量采样器和自一致性。

团队

LLMBox由AI Box开发和维护。更多详情请参见change log

许可证

LLMBox使用MIT许可证。

引用

如果您发现LLMBox对您的研究或开发有用，请引用以下论文：

LLMBox

LLMBox

主要特点

文档

快速开始

安装

训练快速开始

使用快速开始

训练

合并分词器

合并数据集

Self-Instruct和Evol-Instruct

使用

高效评估

评估方法

贡献

团队

许可证

引用

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号