sillm

SiLLM - 硅基大语言模型训练与推理工具包

SiLLM 通过利用 MLX 框架，简化了在 Apple Silicon 上训练和运行大语言模型（LLMs）的过程。基于 MLX Examples 提供的基础，本项目引入了专门设计的额外功能，以增强 MLX 在精简包装中的 LLM 操作。

LLM 加载：以不同格式（Huggingface、Torch、GGUF、MLX）加载 LLM 用于对话和训练
LoRA 训练：使用低秩适应训练 LLM
DPO 训练：使用直接偏好优化训练 LLM

特性

网页应用，提供在本地硬件上运行的无缝对话体验
带有 OpenAI 兼容对话端点的 API 服务器
模型架构：Llama、Mistral、Mixtral、Phi-2、Phi-3、Gemma、Qwen2、Starcoder2、DBRX、Cohere Command-R
对话模板：llama-2、chatml、alpaca、vicuna、gemma、phi、openchat
DPO 损失函数：sigmoid、hinge、IPO、DPOP
使用 matplotlib 绘制训练损失图
困惑度计算

实验性功能

SiLLM 的主要目标之一是让更多使用 Apple Silicon 硬件的用户能够探索大语言模型的内部工作原理，并使新技术变得更加易于使用。

控制向量和特征消融

控制模块整合了基于论文表征工程和博客拒绝消融的技术。表征工程是一种在训练过程中从模型隐藏状态计算控制向量的方法，可用于在推理过程中影响行为和生成的输出。拒绝消融的原理类似，但可用于从模型权重中移除向量所代表的方向。

安装

使用 pip：

pip install sillm-mlx

使用方法

对话网页应用

该网页应用使用 Chainlit 为在 Apple Silicon 硬件上本地运行的对话式 AI 提供前端界面。

https://github.com/armbues/SiLLM/assets/4117144/ab537795-5020-4241-aa89-3b19b9de263b

要使用网页应用，请克隆仓库并使用 chainlit 启动应用：

git clone https://github.com/armbues/SiLLM.git
cd SiLLM/app
pip install -r requirements.txt
python -m chainlit run app.py -w

设置环境变量 SILLM_MODEL_DIR 和 SILLM_ADAPTER_DIR 以加载本地模型/适配器。

命令行界面（CLI）脚本

使用参数 -h 运行 CLI 脚本，查看所有可用参数的打印输出。

对话：

在终端中与 LLM 对话的简单 CLI 界面。

python -m sillm.chat /path/to/model

在搭载 16GB 内存的 MacBook Air M2 上使用 Gemma-2B-it 在终端中运行 sillm.chat：

https://github.com/armbues/SiLLM/assets/4117144/42e2d0f8-3bd8-44ca-9f78-8c4a885b8939

服务器：

运行带有基本功能的 API 服务器，兼容 OpenAI 对话端点。

python -m sillm.server /path/to/model --port 8000

LoRA 微调：

使用低秩适应（LoRA）微调模型。

python -m sillm.lora /path/to/model -d /path/to/dataset -o /output/adapters

DPO 微调：

使用 LoRA 和直接偏好优化（DPO）微调模型。

python -m sillm.dpo /path/to/model -d /path/to/dataset -o /output/adapters

转换

在合并适配器或量化权重时转换模型。

将适配器合并到模型的示例：

python -m sillm.convert /path/to/input/model /path/to/output/model -a /path/to/adapters

量化

串行量化模型（无需将整个模型加载到内存中）：

python -m sillm.quantize /path/to/input/model /path/to/output/model --bits 4

Python

使用 SiLLM 加载模型并生成文本补全的最小示例：

import sillm

model = sillm.load("/path/to/model")
for s, _ in model.generate("在一个美丽的星期天早晨，"):
    print(s, flush=True, end="")

示例

SiLLM-examples 仓库包含了使用 SiLLM 框架训练和运行 LLM 的 Python 代码示例。

LoRA 微调

使用 Nvidia HelpSteer 数据集对 Mistral-7B-Instruct-v0.2 进行 LoRA 训练。

DPO 微调

使用 DPO Mix 7K 数据集对 Qwen1.5-7B-Chat 进行 DPO 训练。训练包括监督微调（SFT）和直接偏好优化（DPO）。

MMLU 基准测试

使用 MMLU 数据集实现"大规模多任务语言理解"基准测试。

困惑度

使用维基百科文章入口段落的样本数据集计算困惑度分数。

模型支持

SiLLM 通常支持加载以下模型架构/系列的 LLM：Llama 2、Mistral、Mixtral、Gemma、Phi、Qwen 2、StarCoder2。

以下是已成功在 SiLLM 中测试过的模型列表：

模型系列	模型/规模 (HF)	模型/规模 (GGUF)	模型/规模 (MLX)
Llama-3	8B-指令版, 70B-指令版
Llama-2	7b-聊天版	7b-聊天版.Q8_0, 13b-聊天版.Q8_0	7b, 7b-聊天版
Mistral	7b-指令版-v0.2, 7b-指令版-v0.3	7b-指令版-v0.2.Q8_0
Mixtral			8x7B-指令版-v0.1, 8x22B-指令版-v0.1
Gemma	2b, 2b-it, 7b, 7b-it
Phi-2	2.7b
Phi-3	mini-4k
Qwen 1.5	7b-聊天版, 14b-聊天版
Qwen 2	7b-指令版, 72b-指令版
StarCoder2	3b, 7b, 15b
CodeLlama		70b-指令版.Q4_0, Phind-34b-v2.Q4_0
Codestral	22b-v0.1
DBRX	(当前不支持)		dbrx-指令版-4bit
Cohere	Command-R, [Command-R+](https://github.com/armbues/SiLLM/blob/main/CohereForAI/c4ai-command-r-plus

路线图

用于训练的学习率调度器
合并模型
将模型保存为GGUF格式
使用ORPO进行微调

许可证

本项目使用MIT许可证。

致谢

非常感谢Apple MLX团队实施和维护MLX框架，使得可以释放Apple Silicon的力量，在MacBook和其他Apple设备上运行/训练大型语言模型。感谢MLX Examples项目的所有贡献者以及在线分享模型实现的开发者。最后但同样重要的是，感谢更广泛的社区分享开放权重模型、微调和数据集 - 没有你们，人工智能的进展将只能在封闭的门后发生！