chatglm.cpp

项目介绍：ChatGLM.cpp

简介

ChatGLM.cpp 是关于 ChatGLM 系列模型的 C++ 实现项目，它能让用户在设备上实时聊天。这个项目涵盖了如 ChatGLM-6B、ChatGLM2-6B、ChatGLM3、GLM-4 等模型，旨在提高在设备（如 MacBook）上运行深度学习模型的效率。

项目特点

纯 C++ 实现：ChatGLM.cpp 基于 ggml 库，跟 llama.cpp 具有类似的工作方式。
内存优化处理：通过 int4/int8 量化技术优化 CPU 推理，加速并减少内存占用。
模型微调支持：支持 P-Tuning v2 和 LoRA 微调模型。
流式生成：模型支持流式数据生成，带有打字机效果。
多种接口：提供 Python 绑定、Web 演示、API 服务器等多种使用方式。
广泛的硬件和平台支持：支持多个硬件和平台，包括 x86/arm CPU、NVIDIA GPU、Apple Silicon GPU，以及 Linux、MacOS 和 Windows 系统。

使用说明

准备工作

克隆项目到本地机器上：

git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp

更新子模块（如果需要）：
```
git submodule update --init --recursive
```

模型量化

需要准备好库来加载和量化 Hugging Face 的模型：

python3 -m pip install -U pip
python3 -m pip install torch tabulate tqdm transformers accelerate sentencepiece

使用转换脚本将模型转换为量化的 GGML 格式。例如，将 ChatGLM-6B 模型转换为 q4_0（量化为 int4）格式：

python3 chatglm_cpp/convert.py -i THUDM/chatglm-6b -t q4_0 -o models/chatglm-ggml.bin

支持多种量化类型，用户可以根据需要指定：

q4_0（int4, 对称）
q4_1（int4, 非对称）
q5_0（int5, 对称）
q5_1（int5, 非对称）
q8_0（int8, 对称）
f16（半精度浮点）
f32（全精度浮点）

编译与运行

使用 CMake 编译项目：

cmake -B build
cmake --build build -j --config Release

跑起来吧！使用量化的 ChatGLM-6B 模型进行聊天：
```
./build/bin/main -m models/chatglm-ggml.bin -p 你好
```

实时交互模式

添加 -i 标志进入交互模式，在这个模式下，聊天历史可作为下一轮对话的上下文。

性能与优化

项目可以整合 BLAS 库以进一步加速矩阵运算。在某些环境下，这可能会导致性能下降，因此应根据实际的基准测试结果来决策是否开启。

支持的优化框架包括：

加速框架（在 macOS 上自动启用）可以通过 CMake 标志关闭。
OpenBLAS 提供了 CPU 加速。
CUDA 为 NVIDIA GPU 加速模型推理。
MPS (Metal Performance Shaders) 允许在 Apple Silicon GPU 上进行计算。

Python 绑定

该项目还提供了 Python 绑定，用户可以直接在 Python 中调用高层接口进行聊天或者流式聊天。

安装

通过 PyPI 安装（推荐）：

pip install -U chatglm-cpp

结语

ChatGLM.cpp 是一个功能强大的项目，通过高效的内存和计算优化技术，用户可以在多种设备和平台上运行 ChatGLM 模型。这使得大规模语言模型的实时应用成为可能，为开发者提供了便捷的多接口使用场景。项目热衷于社区的支持与贡献，期望在未来的发展中继续提升其性能和使用体验。

项目介绍：ChatGLM.cpp

简介

项目特点

使用说明

准备工作

模型量化

编译与运行

实时交互模式

性能与优化

Python 绑定

安装

结语

编辑推荐精选

Trae

问小白

Transly

讯飞智文

讯飞星火

Spark-TTS

咔片PPT

讯飞绘文

材料星

openai-agents-python

探索AI的无限可能

推荐工具精选

Trae

豆包

讯飞文书

讯飞绘文

讯飞绘镜

阿里绘蛙

咔片PPT

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号