phi-2-GGUF

项目介绍：phi-2-GGUF

项目背景

phi-2-GGUF项目是微软创建的一种用于文本生成任务的模型，该项目由微软研发团队开发。原始模型名为Phi 2。这种模型采用了一种新格式，称为GGUF，由llama.cpp团队于2023年8月21日引入。GGUF是对GGML格式的替代，旨在提供更好的兼容性和支持。

GGUF格式介绍

GGUF格式是为许多支持模型生成的客户端和图书馆而设计的。以下是一些兼容GGUF格式的工具和接口：

llama.cpp：提供CLI和服务器选项，可以在local环境下运行。
text-generation-webui：功能丰富的网络用户界面，支持GPU加速。
KoboldCpp：具备跨平台GPU加速能力，特别适合故事编写。
GPT4All：开源的本地运行GUI，支持Windows、Linux和macOS，具有全GPU加速功能。
LM Studio：简易使用的强大本地GUI，支持Windows和macOS(Silicon)，具有GPU加速功能。
Faraday.dev：适用于Windows和macOS的聊天GUI，支持GPU加速。

此外，使用Python的开发者还可以用到诸如llama-cpp-python和candle等库来运行GGUF格式的模型。

模型仓库信息

phi-2存在多种格式和版本供使用，其中包括：

GPU推理的GPTQ模型，支持多种量化参数选项。
CPU+GPU推理的2、3、4、5、6和8位GGUF模型。
微软原始的未量化fp16模型，采用pytorch格式，用于GPU推理和进一步转换。

量化方法详细解释

在phi-2-GGUF项目中，提供了几种先进的量化方法，包括：

GGML_TYPE_Q2_K：使用2.5625位每权重，有较大质量损失。
GGML_TYPE_Q3_K：使用3.4375位每权重，适用于需要质量平衡的使用场景。
GGML_TYPE_Q4_K：使用4.5位每权重，推荐用于大部分常规用途。
GGML_TYPE_Q5_K和Q6_K：分别是5.5和6.5625位每权重，提供更佳质量的量化选项。

下载与运行

用户可以通过多个客户端和库下载phi-2-GGUF模型文件。以下是一些下载建议与命令：

使用text-generation-webui时，可在下载模型页面输入仓库名如TheBloke/phi-2-GGUF，选择相应文件下载。

在命令行使用huggingface-hub库进行快速下载，示例命令如下：

pip3 install huggingface-hub
huggingface-cli download TheBloke/phi-2-GGUF phi-2.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

确保下载后使用符合要求的运行环境及配置，这样可以根据需求进行有效的文本生成。

使用实例

在`llama.cpp`中运行

确保您使用的llama.cpp是2023年8月27日以后的版本，以下是示例命令：

./main -ngl 35 -m phi-2.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Instruct: {prompt}\nOutput:"

在Python代码中使用

可以采用llama-cpp-python库加载并运行模型，以下是一个简单的Python代码示例：

from llama_cpp import Llama

llm = Llama(
  model_path="./phi-2.Q4_K_M.gguf",  # 先下载好模型文件
  n_ctx=2048, 
  n_threads=8,
  n_gpu_layers=35
)

output = llm(
  "Instruct: {prompt}\nOutput:",
  max_tokens=512,
  stop=["</s>"],
  echo=True
)