LMDeploy: 高效的大语言模型压缩、部署与服务工具包

lmdeploy

LMDeploy: 高效的大语言模型压缩、部署与服务工具包

LMDeploy是一个由MMRazor和MMDeploy团队开发的开源工具包,旨在为大语言模型(LLM)提供高效的压缩、部署和服务解决方案。作为一个功能强大且易于使用的工具,LMDeploy正在为人工智能领域带来革命性的变化,使得更多开发者和企业能够轻松地将大型语言模型应用到实际生产环境中。

核心特性

LMDeploy具有以下几个突出的核心特性:

高效推理: 通过引入持久批处理、分块KV缓存、动态分割融合、张量并行等关键技术,LMDeploy能够提供比vLLM高出1.8倍的请求吞吐量。这种性能优势使得LMDeploy在处理大规模并发请求时表现出色。
有效量化: LMDeploy支持权重量化和KV缓存量化,其4位推理性能比FP16高出2.4倍。通过OpenCompass评估,量化后的模型质量得到了验证,确保了在提高效率的同时不会显著损失模型性能。
简单分布式服务: 利用请求分发服务,LMDeploy可以轻松实现跨多台机器和多张显卡的多模型服务部署。这一特性大大简化了大规模服务的部署和管理过程。
交互式推理模式: 在多轮对话过程中,LMDeploy通过缓存注意力机制的KV值,使得引擎能够记住对话历史,避免重复处理历史会话。这种方式显著提高了交互式应用的响应速度和用户体验。
出色兼容性: LMDeploy支持同时使用KV缓存量化、AWQ(Activation-aware Weight Quantization)和自动前缀缓存等技术。这种高度的兼容性使得用户可以灵活组合各种优化技术,以达到最佳的性能和效率平衡。

支持的模型

LMDeploy支持广泛的大语言模型和视觉语言模型,包括但不限于:

大语言模型(LLMs): Llama系列(7B-70B)、InternLM系列、Qwen系列、Baichuan系列、ChatGLM2、Falcon、Mistral、Mixtral等。
视觉语言模型(VLMs): LLaVA、InternLM-XComposer系列、Qwen-VL、DeepSeek-VL、InternVL-Chat系列、CogVLM系列等。

这种广泛的模型支持使得LMDeploy能够满足各种不同场景和需求的应用部署。

推理引擎

LMDeploy开发了两种推理引擎:TurboMind和PyTorch,各有侧重:

TurboMind: 专注于推理性能的极致优化,适合对性能要求较高的生产环境。
PyTorch: 纯Python开发,旨在降低开发者使用门槛,适合快速实验和功能开发。

用户可以根据实际需求选择合适的推理引擎。

快速开始

LMDeploy的安装和使用非常简单。推荐在conda环境(Python 3.8-3.12)中使用pip安装:

conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy

安装完成后,可以轻松进行离线批量推理:

import lmdeploy
pipe = lmdeploy.pipeline("internlm/internlm2-chat-7b")
response = pipe(["Hi, pls intro yourself", "Shanghai is"])
print(response)

性能表现

LMDeploy性能benchmark

如上图所示,LMDeploy在各种模型和设置下都表现出色,特别是在处理大规模并发请求时优势明显。

社区贡献

LMDeploy是一个开源项目,欢迎社区贡献。贡献者可以参考项目的CONTRIBUTING.md文件了解贡献指南。此外,还有一些第三方项目基于LMDeploy开发,如LMDeploy-Jetson(用于NVIDIA Jetson平台的离线LLM部署)和BentoLMDeploy(使用LMDeploy和BentoML部署LLM的示例项目)。