Llama 2 7B的GPTQ量化版本 支持多种参数选项
该项目提供Meta Llama 2 7B模型的GPTQ量化版本,包含4位精度、多种组大小和Act Order等参数选项。模型文件兼容AutoGPTQ、ExLlama等框架,适用于GPU推理。项目提供了在text-generation-webui使用的说明,以及Python代码调用示例。这些量化版本在保持性能的同时降低显存占用,便于更多用户部署使用Llama 2模型。
Llama-2-7B-GPTQ是一个由TheBloke基于Meta的Llama 2 7B模型量化而来的模型项目。该项目旨在提供一个经过GPTQ (Generative Pre-trained Transformer Quantization)量化的Llama 2 7B模型,以实现更高效的推理和部署。
该项目提供了多个GPTQ量化版本,主要包括:
不同版本在量化精度、内存占用和推理速度上有所权衡,用户可根据实际需求选择。
该模型可以通过多种方式使用:
项目提供了详细的代码示例,方便用户快速上手。
该模型兼容多种推理框架,包括:
Llama-2-7B-GPTQ项目为用户提供了一个高效、易用的Llama 2量化版本,具有以下优势:
该项目为Llama 2模型的广泛应用提供了便利,推动了大型语言模型的普及。
</SOURCE_TEXT>