并行解码技术突破,大语言模型推理速度提升3倍
Consistency Large Language Models (CLLMs) 是一种创新的大语言模型技术,通过Jacobi并行解码方法显著提升推理速度。实验表明,CLLMs在多种任务中可实现2.4到3.4倍的性能提升。该技术无需额外模型或架构改动,易于集成,为大语言模型应用带来更高效、灵活的解决方案。
一致性大语言模型(CLLMs)是一个新的模型家族,能够通过高效并行解码$n$个token来减少推理延迟。这种解码方法称为雅可比解码,与传统的自回归(AR)解码相比,它提高了推理效率。CLLMs的训练目标是通过将任何随机初始化的$n$个token序列映射到与AR解码相同的结果,以尽可能少的步骤来执行高效的雅可比解码。
实验结果证明了CLLMs的有效性,在各种任务中生成速度提高了$2.4\times$到$3.4\times$。
<p align="center"> <picture> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/a9594920-2817-48ea-8079-01c864b31773.png" width="45%"> </picture> </p>下面展示了使用CLLM解决一个基本数学问题时,生成速度显著提高(约$3\times$)的演示:
<p align="center"> <picture> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/0cc4d0f0-822d-4ac4-8da0-e12571db0d2c.gif" width="90%"> </picture> </p>一致性大语言模型(CLLMs)是从预训练LLMs中精炼而来的高效并行解码器家族。
与现有的快速解码技术相比,CLLMs实现快速并行解码无需:
这为CLLMs带来了一些优势:
conda create -n cllm python=3.10
conda activate cllm
git clone git@github.com:hao-ai-lab/Consistency_LLM.git
cd Consistency_LLM
pip install -r requirements.txt
pip install flash-attn==2.4.1
大小 | 数据集 | Huggingface 仓库 |
---|---|---|
7B | ShareGPT | cllm/vicuna-7b-sharegpt-gpt4-48k |
7B | GSM8K (数学) | GAIR/Abel-7B-001 |
7B | Spider (文本到SQL) | cllm/deepseekcoder-7b-instruct-spider |
7B | Code-Search-Net Python | cllm/deepseekcoder_7b_codesearch_net_python |
大小 |
---|