专为LUT量化大语言模型开发的灵活查找表引擎
FLUTE是专为LUT量化大语言模型开发的灵活查找表引擎。该引擎支持整数、浮点和学习型等多种量化方案,可与vLLM和Hugging Face等主流框架无缝集成。FLUTE兼容LLaMA-3/3.1、Gemma-2等多种模型,能在保持模型性能的同时大幅降低内存占用和推理延迟,为大语言模型优化提供了高效解决方案。
<a href="https://pypi.org/project/flute-kernel/">
</a>
<a href="https://arxiv.org/abs/2407.10960">
</a>
[背景] [基准测试] [入门指南] [兼容性] [模型库]
</div>通过pip安装FLUTE或从源代码构建:
# 对于CUDA 12.1 pip install flute-kernel # 对于CUDA 11.8 pip install flute-kernel -i https://flute-ai.github.io/whl/cu118
前往入门指南并尝试使用!
均匀量化将全精度权重转换为等大小的低精度区间。查找表(LUT)量化是非均匀量化的一种灵活变体,可以通过查找表将区间映射到任意值。
<table align="center"> <tr> <th>均匀(整数)量化</th> <th>查找表量化</th> </tr> <tr> <td align="center">$$\widehat{\mathbf{W}} = \mathtt{float}(\mathbf{Q}) \cdot \mathbf{s}$$
</td> <td align="center">$$\widehat{\mathbf{W}} = \mathtt{tableLookup}(\mathbf{Q}, \mathtt{table}) \cdot \mathbf{s}$$
</td> </tr> </table>