基于vLLM的企业级大语言模型推理引擎
nm-vllm是Neural Magic维护的企业级大语言模型推理引擎,基于vLLM开发。支持PyPI安装和Docker部署,提供CUDA加速和稀 疏化功能,可提高推理效率。项目在Hugging Face上提供多种优化模型,为大规模语言模型部署提供高效解决方案。
nm-vllm
是我们支持的 vLLM 企业版分发。
nm-vllm PyPi 包包含预编译的 CUDA(版本 12.1)内核二进制文件。对于其他 PyTorch 或 CUDA 版本,请从源代码编译该包。
使用 pip 安装:
pip install nm-vllm --extra-index-url https://pypi.neuralmagic.com/simple
要使用权重稀疏特性,请包含可选的 sparse
依赖项。
pip install nm-vllm[sparse] --extra-index-url https://pypi.neuralmagic.com/simple
你也可以从源代码构建和安装 nm-vllm
(这将花费约 10 分钟):
git clone https://github.com/neuralmagic/nm-vllm.git cd nm-vllm pip install -e .[sparse] --extra-index-url https://pypi.neuralmagic.com/simple
nm-vllm
容器注册表包含预制的 docker 镜像。
使用以下命令启动与 OpenAI 兼容的服务器:
MODEL_ID=Qwen/Qwen2-0.5B-Instruct docker run --gpus all --shm-size 2g ghcr.io/neuralmagic/nm-vllm-openai:latest --model $MODEL_ID
Neural Magic 在我们的 Hugging Face 组织简介上维护着各种优化模型: