chatllm.cpp

项目介绍：ChatLLM.cpp

ChatLLM.cpp 是一个纯 C++ 实现的实时聊天项目，旨在使得计算机能够在 CPU 上进行多种语言模型的推理，从而实现实时对话。它依托于来自 ggerganov 的 ggml 库，以实现对从不到 1B 参数到超过 300B 参数模型的高效推理。

项目特性

高效推理：支持 int4/int8 量化的内存高效推理，加速计算，并优化键值缓存和并行计算能力。
面向对象的设计：使用面向对象编程处理不同 Transformer 模型间的相似性。
流式生成：实现输入有序播放的流式生成效果。
连续聊天：支持内容几乎无限制的连续对话。

两种实现方式：Restart 和 Shift。使用 --extending 参数查看选项。
检索增强生成：包括 RAG。
支持 LoRA：支持 LoRA 模型。
绑定接口：提供 Python/JavaScript/C 绑定接口，并支持网页演示和更多功能延展。

快速开始

要开始使用 ChatLLM.cpp，只需运行简单的命令：python chatllm.py -i -m :model_id。详细步骤详见快速开始文档。

使用方法

准备

首先，将 ChatLLM.cpp 项目克隆到本地：

git clone --recursive https://github.com/foldl/chatllm.cpp.git && cd chatllm.cpp

如果在克隆时未加 --recursive 标志，可以在 chatllm.cpp 目录中运行：

git submodule update --init --recursive

模型量化

某些量化模型可以按需下载。需安装 convert.py 的依赖：

pip install -r requirements.txt

使用 convert.py 将模型转换为量化的 GGML 格式。例如，将 fp16 基础模型转换为 q8_0（量化 int8）GGML 模型：

python3 convert.py -i path/to/model -t q8_0 -o quantized.bin

构建

项目的构建可以通过多种方式实现。

使用 make：

在 Windows 上准备 make：
1. 下载最新的 Fortran 版本 w64devkit。
2. 解压 w64devkit。
3. 运行 w64devkit.exe，然后进入 chatllm.cpp 目录。
```
make
```

使用 CMake：

cmake -B build
# 在 Linux 或 WSL 上：
cmake --build build -j
# 在 Windows 上使用 MSVC：
cmake --build build -j --config Release

运行

可以通过以下命令运行量化模型：

./build/bin/main -m chatglm-ggml.bin                            # ChatGLM-6B
./build/bin/main -m llama2.bin  --seed 100                      # Llama-2-Chat-7B

要在交互模式下运行模型，请添加 -i 标志。例如：

# Windows 环境
.\build\bin\Release\main -m model.bin -i

# Linux 或 WSL 中
rlwrap ./build/bin/main -m model.bin -i

在交互模式下，您的聊天历史将作为下一轮对话的上下文。更多选项可通过 ./build/bin/main -h 查看。

致谢

本项目从 ChatGLM.cpp 项目进行重构，感谢开源的模型源代码和检查点。

注意事项

此项目为学习深度学习和 GGML 的个人兴趣项目，仍在积极开发中。项目欢迎问题修复的合并请求，但不接受新功能特性的合并请求。

项目介绍：ChatLLM.cpp

最新动态

项目特性

快速开始

使用方法

准备

模型量化

构建

运行

致谢

注意事项

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号