基于GLM-4的轻量级中文对话模型量化版本
该项目基于GLM-4-9b-chat-1m模型开 发,通过llama.cpp实现多种精度的模型量化。从18GB的F16版本到4GB的IQ2版本,提供了丰富的量化选项。项目中包含详细的性能对比和部署建议,方便开发者根据硬件条件选择合适的量化版本进行本地化部署。
glm-4-9b-chat-1m-GGUF是一个基于THUDM/glm-4-9b-chat-1m模型的量化项目。该项目由bartowski进行量化处理,旨在为用户提供多种不同精度的量化版本,以适应不同的硬件环境和性能需求。
使用该模型时,需要按照以下格式构建提示:
[gMASK] <sop> <|system|>
{system_prompt} <|user|>
{prompt} <|assistant|>
bartowski为用户提供了详细的版本选择建议:
项目提供了使用huggingface-cli下载特定文件的方法: