ExLlama

一个独立的Python/C++/CUDA实现的Llama，用于4位GPTQ权重，旨在在现代GPU上快速且内存高效。

声明：该项目正在进行中，但仍在持续开发中！

硬件要求

我正在使用RTX 4090和RTX 3090-Ti进行开发。30系列及以后的NVIDIA GPU应该能得到很好的支持，但Pascal或更旧的GPU由于FP16支持较差，性能可能不佳。目前对于较旧的GPU，AutoGPTQ或GPTQ-for-LLaMa是更好的选择。理论上也支持ROCm（通过HIP），但我目前没有AMD设备来测试或优化。

依赖项

Python 3.9或更新版本
torch 在2.0.1和2.1.0（每夜版）cu118上测试通过
safetensors 0.3.2
sentencepiece
ninja

另外，仅针对Web界面：

flask
waitress

Linux/WSL前提条件

pip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu118

Windows前提条件

在Windows上运行（不使用WSL）：

安装MSVC 2022。你可以选择安装完整的Visual Studio 2022 IDE，或者只安装Build Tools for Visual Studio 2022包（确保在安装程序中勾选Desktop development with C++），选择哪个并不重要。
安装适当版本的PyTorch，选择一个CUDA版本。我正在使用每夜构建版，但稳定版（2.0.1）也应该可以工作。
安装CUDA Toolkit（11.7和11.8似乎都可以使用，只需确保与PyTorch的Compute Platform版本匹配）。
为获得最佳性能，启用硬件加速GPU调度。

使用方法

克隆仓库，安装依赖项，并运行基准测试：

git clone https://github.com/turboderp/exllama
cd exllama

pip install -r requirements.txt

python test_benchmark_inference.py -d <模型文件路径> -p -ppl

CUDA扩展在运行时加载，因此无需单独安装。它将在首次运行时编译并缓存到~/.cache/torch_extensions/，这可能需要一点时间。如果一开始没有反应，请给它一分钟时间来编译。

聊天机器人示例：

python example_chatbot.py -d <模型文件路径> -un "Jeff" -p prompt_chatbort.txt

Python模块

jllllll目前维护着一个可安装的Python模块在这里，这可能更适合将ExLlama与其他项目集成

Web界面

我还为它制作了一个简单的Web界面。不要看JavaScript代码，它主要是由ChatGPT编写的，会让你梦魇。但它基本上可以工作，而且很有趣，尤其是多机器人模式：

运行方法：

pip install -r requirements-web.txt

python webui/app.py -d <模型文件路径>

注意，会话默认存储在~/exllama_sessions/。如果需要，可以使用-sd更改该位置。

Docker

为了获得安全优势和更易部署，也可以在隔离的docker容器中运行Web界面。注意：docker镜像目前仅支持NVIDIA GPU。

要求

建议以无根模式运行docker。

构建

构建docker镜像最简单的方法是使用docker compose。首先，在.env文件中设置MODEL_PATH和SESSIONS_PATH变量为主机上的实际目录。然后运行：

docker compose build

也可以手动构建镜像：

docker build -t exllama-web .

注意：默认情况下，docker容器内的服务由非root用户运行。因此，在容器入口点（entrypoint.sh）中会更改绑定挂载目录（默认docker-compose.yml文件中的/data/model和/data/exllama_sessions）的所有权为这个非root用户。要禁用此功能，如果使用docker compose，请在.env文件中设置RUN_UID=0，或者如果手动构建镜像，使用以下命令：

docker build -t exllama-web --build-arg RUN_UID=0 .

运行

使用docker compose：

docker compose up

现在可以在主机上通过http://localhost:5000访问Web界面。

可以在docker-compose.yml中查看配置，并通过创建docker-compose.override.yml文件来更改配置。

手动运行：

docker run --gpus all -p 5000:5000 -v <模型目录路径>:/data/model/ -v <会话目录路径>:/data/exllama_sessions --rm -it exllama-web --host 0.0.0.0:5000

目前的结果

新实现

模型	大小	分组大小	激活	序列长度	显存	提示速度	最佳速度	最差速度	困惑度
Llama	7B	128	否	2,048 词	5,194 MB	13,918 词/秒	173 词/秒	140 词/秒	6.45
Llama	13B	128	否	2,048 词	9,127 MB	7,507 词/秒	102 词/秒	86 词/秒	5.60
Llama	33B	128	否	2,048 词	20,795 MB	2,959 词/秒	47 词/秒	40 词/秒	4.60
Llama	33B	128	是	2,048 词	20,795 MB	2,784 词/秒	45 词/秒	37 词/秒	4.55
Llama	33B	32	是	1,550 词 <sup>1</sup>	21,486 MB	2,636 词/秒	41 词/秒	37 词/秒	4.52
Koala	13B	128	是	2,048 词	9,127 MB	5,529 词/秒	93 词/秒	79 词/秒	6.73
WizardLM	33B	-	是	2,048 词	20,199 MB	2,313 词/秒	47 词/秒	40 词/秒	5.75
OpenLlama	3B	128	是	2,048 词	3,128 MB	16,419 词/秒	226 词/秒	170 词/秒	7.81

<sup>1</sup> 无法在不耗尽内存的情况下达到完整序列长度

所有测试均在配备桌面环境的普通RTX 4090 / 12900K上进行，同时还有其他几个应用程序也在使用显存。

"提示"速度是指列出的序列长度减去128个词元的推理速度。"最差"是完整上下文最后128个词元的平均速度（最坏情况），"最佳"列出了空序列中前128个词元的速度（最佳情况）。

显存使用量是由PyTorch报告的，不包括PyTorch自身的开销（CUDA内核、内部缓冲区等）。这在某种程度上是不可预测的。最好的办法是仅优化模型的显存使用，可能的话在24 GB GPU上瞄准20 GB，以确保有足够空间容纳桌面环境和Torch的所有内部组件。

困惑度的测量仅用于验证模型是否正常工作。使用的数据集是来自WikiText的特定小样本，因此分数不能与其他Llama基准进行比较，仅用于比较不同Llama模型之间的差异。

双GPU结果

以下基准测试来自4090 + 3090-Ti，使用参数-gs 17.2,24：

模型	大小	分组大小	激活	序列长度	显存	提示速度	最佳速度	最差速度	困惑度
Llama	65B	128	是	2,048 词	39,804 MB	1,109 词/秒	20 词/秒	18 词/秒	4.20
Llama	65B	32	是	2,048 词	43,424 MB	1,037 词/秒	17 词/秒	16 词/秒	4.11
Llama-2	70B	128	是	2,048 词	40,680 MB	914 词/秒	17 词/秒	14 词/秒	4.15
Llama-2	70B	32	是	2,048 词	36,815 MB	874 词/秒	15 词/秒	12 词/秒	4.10