aphrodite-engine

aphrodite-engine

开源高性能语言模型推理引擎

Aphrodite是一个开源的语言模型推理引擎,采用vLLM的分页注意力机制实现高效推理。它支持连续批处理、多种量化方法和分布式推理,可为大规模用户提供快速服务。该引擎还具备多种采样方法和8位KV缓存,能够处理更长的上下文并提高吞吐量。Aphrodite目前作为PygmalionAI的官方后端引擎使用。

Aphrodite语言模型推理引擎AI加速量化技术Github开源项目
<h1 align="center"> 为语言注入生命 </h1>

aphrodite

Aphrodite是PygmalionAI的官方后端引擎。它被设计用作PygmalionAI网站的推理端点,并允许以极快的速度(得益于vLLM的Paged Attention)为大量用户提供Pygmalion模型服务。

Aphrodite建立在并整合了多个项目的杰出工作。

Aphrodite开发所需的计算资源由Arc Compute提供。

特性

  • 连续批处理
  • 使用来自vLLM的PagedAttention进行高效的K/V管理
  • 优化的CUDA内核以提高推理性能
  • 通过AQLM、AWQ、Bitsandbytes、EXL2、GGUF、GPTQ、QuIP#、Smoothquant+和SqueezeLLM支持量化
  • 分布式推理
  • 多种采样方法(Mirostat局部典型采样、无尾采样等)
  • 8位KV缓存,支持FP8和INT8格式,以实现更长的上下文长度和更高的吞吐量。

快速开始

安装引擎:

pip install -U aphrodite-engine --extra-index-url https://downloads.pygmalion.chat/whl

[!重要]
如果你需要最新功能,如Llama 3.1支持,你需要构建发布候选分支。

直接安装:

pip install -U aphrodite-engine@git+https://github.com/PygmalionAI/aphrodite-engine.git@rc_054

或克隆并构建(推荐):

git clone -b rc_054 https://github.com/PygmalionAI/aphrodite-engine.git && cd aphrodite-engine pip install -e .

然后启动一个模型:

aphrodite run meta-llama/Meta-Llama-3-8B-Instruct

这将创建一个OpenAI兼容的API服务器,可以在本地主机的2242端口访问。你可以将API插入到支持OpenAI的UI中,比如SillyTavern

请参阅wiki获取完整的参数和标志列表,你可以传递给引擎。

你可以在这里的演示中试用引擎:

在Colab中打开

Docker

此外,我们提供了一个Docker镜像以便于部署。以下是一个基本命令来帮助你开始:

sudo docker run -d -e MODEL_NAME="mistralai/Mistral-7B-Instruct-v0.2" -p 2242:2242 --gpus all --ipc host alpindale/aphrodite-engine

这将拉取Aphrodite Engine镜像(约9GiB下载),并在2242端口启动带有Mistral-7B模型的引擎。查看这里获取完整的环境变量列表。

查看这里获取用于Docker Compose的Compose文件。

要求

  • 操作系统:Linux(或Windows的WSL)
  • Python:至少3.8

对于Windows用户,如果不需要批处理支持,建议使用tabbyAPI

构建要求:

  • CUDA >= 11

有关支持的GPU,请参见这里。一般来说,所有半现代GPU都受支持 - 最低至Pascal(GTX 10xx、P40等)。

安装

使用

关于使用,请参阅wiki页面获取详细说明。Aphrodite为LLM推理提供了许多不同的选项,所以请阅读这里的选项列表。

性能

速度因不同的GPU、模型大小、量化方案、批处理大小等而异。以下是通过从API服务器请求尽可能多的完成来进行的一些基准测试。

批处理大小为1的性能

这些是用户在请求单个输出时通常会获得的速度,包括相当大的提示和输出长度。本质上是正常的聊天体验。

以下结果是通过发送8192个提示令牌并请求1024个令牌(设置ignore_eos=True)的请求获得的。

GPU:NVIDIA A40,Mistral 7B。基准是使用text-generation-webui以FP16加载的相同模型。

高批处理大小性能

正在进行中。

注意事项

  1. 默认情况下,Aphrodite会占用GPU 90%的VRAM。如果你不是在大规模服务LLM,你可能想限制它占用的内存量。你可以在API示例中通过使用--gpu-memory-utilization 0.6(0.6表示60%)来启动服务器。

  2. 你可以通过运行aphrodite run --help查看完整的命令列表。

  3. 大多数模型支持通过RoPE方法进行上下文长度扩展。使用命令行标志--max-model-len指定所需的上下文长度,引擎将相应地调整RoPE缩放。

  4. 如果遇到问题,请参阅FAQ和问题。如果你在那里找不到答案,请提出一个issue

致谢

没有其他开源项目的杰出工作,Aphrodite Engine就不可能实现。感谢以下项目:

贡献

欢迎每个人贡献。你可以通过为新功能、修复或一般的用户体验改进开启拉取请求来支持项目。

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多