gemma-2-27b-it-gptq-4bit

gemma-2-27b-it-gptq-4bit项目介绍

项目背景

gemma-2-27b-it-gptq-4bit是一个特别优化和压缩的模型。该模型使用了一种名为GPTQModel的量化方法，使得模型在保持较高性能的同时，占用的存储以及计算资源也得到了显著减少。这种优化方式对于在现有硬件上实现大模型的高效运行非常重要。

关键特性

量化位数：模型被量化为4-bit，这意味着其数字表示形式只有4个二进制位，极大地减少了内存占用。
组大小：模型的组大小设定为128，这影响了模型在处理数据时的并行计算能力和效率。
激活描述：desc_act设定为true，说明模型在量化时特别考虑了激活函数的表现，从而更有效地保持了模型的精度。
对称性和静态组：该模型使用了对称量化（sym设定为true），但没有采用静态组设定（static_groups设定为false），这些设定影响了模型参数的分布和计算。
进阶选项：
- lm_head设定为false，意味着输出层的处理有所不同。
- damp_percent为0.01，表示在模型的输出过程中加入了少许的抑制效果，以减少噪声。
- true_sequential设定为true，确保了模型在推理过程中按照顺序进行处理，这对某些应用场景来说非常重要。

模型加载与推理

目前，只有vllm能够正确加载gemma2-27b量化模型进行推理。为了让模型更好地适应某些特殊需求，开发者可以使用Flashinfer后台处理logits_soft_cap设置。该特性帮助避免了输出的错误。

示例代码：

import os
# 使用Flashinfer后台以确保logits处理的正确性
os.environ['VLLM_ATTENTION_BACKEND'] = 'FLASHINFER'

from transformers import AutoTokenizer
from gptqmodel import BACKEND, GPTQModel

model_name = "ModelCloud/gemma-2-27b-it-gptq-4bit"

prompt = [{"role": "user", "content": "I am in Shanghai, preparing to visit the natural history museum. Can you tell me the best way to"}]

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = GPTQModel.from_quantized(
            model_name,
            backend=BACKEND.VLLM,
        )

inputs = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
outputs = model.generate(prompts=inputs, temperature=0.95, max_length=128)
print(outputs[0].outputs[0].text)