Qwen2.5-14B-Instruct-GGUF

项目介绍：Qwen2.5-14B-Instruct-GGUF

概述

Qwen2.5 是Qwen系列最新的大型语言模型之一。本次发布包括从5亿到720亿参数的多个基本语言模型和指令调优语言模型。与Qwen2相比，Qwen2.5在多个领域有显著的提升：

增强的知识量以及在编码和数学方面显著提升的能力，特别得益于我们在这些领域的专家模型。
指令跟随显著改进，能够生成超过8000个标记的长文本，理解和生成结构化数据（如表格和JSON），对系统提示的多样性更具弹性，从而改进角色扮演和条件设置的实现。
支持长达128K标记的长上下文，并可生成最多8K标记。
多语言支持超过29种语言，包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等。

这个仓库包含经过指令调优的14B Qwen2.5模型，采用GGUF格式，其特点如下：

类型：因果语言模型
培训阶段：预训练与后训练
架构：使用RoPE、SwiGLU、RMSNorm和Attention QKV偏差的变压器
参数数量：14.7B
非嵌入参数数量：13.1B
层数：48
注意力头数（GQA）：Q为40个，KV为8个
上下文长度：完整32,768个标记，生成8,192个标记
- 注意：目前只有vLLM支持用于长度拓展的YARN。如果希望处理长达131,072个标记的序列，请参考非GGUF模型。
量化：q2_K、q3_K_M、q4_0、q4_K_M、q5_0、q5_K_M、q6_K、q8_0

更多详情，请参阅我们的博客、GitHub和文档。

快速入门

请查看我们的llama.cpp文档以获取更多使用指南。

建议克隆llama.cpp并按照官方指南进行安装。以下演示假设你在llama.cpp库下运行命令。

由于克隆整个库可能效率不高，可以手动下载所需的GGUF文件或使用huggingface-cli命令：

安装
```
pip install -U huggingface_hub
```

下载

huggingface-cli download Qwen/Qwen2.5-14B-Instruct-GGUF --include "qwen2.5-14b-instruct-q5_k_m*.gguf" --local-dir . --local-dir-use-symlinks False

对于大文件，我们将其分割成多个段以适应上传限制。它们共享一个前缀，后缀显示其索引。例如，从qwen2.5-14b-instruct-q5_k_m-00001-of-00003.gguf到qwen2.5-14b-instruct-q5_k_m-00003-of-00003.gguf。上述命令将下载所有文件。

（可选）合并：对于拆分文件，您需要首先用以下命令合并它们：

# ./llama-gguf-split --merge <first-split-file-path> <merged-file-path>
./llama-gguf-split --merge qwen2.5-14b-instruct-q5_k_m-00001-of-00003.gguf qwen2.5-14b-instruct-q5_k_m.gguf

对于用户，建议在对话模式下启动以获得类聊天机器人体验：

./llama-cli -m <gguf-file-path> \
    -co -cnv -p "You are Qwen, created by Alibaba Cloud. You are a helpful assistant." \
    -fa -ngl 80 -n 512

评估与性能

详细评估结果已在📑博客中报告。

对于量化模型，原始bfloat16模型的基准测试结果请参考这里。

关于对GPU内存的需求和各自的吞吐量，见结果这里。

项目介绍：Qwen2.5-14B-Instruct-GGUF

概述

快速入门

评估与性能

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号