PowerInfer

PowerInfer 项目简介

PowerInfer 是一款高效的大型语言模型（LLM）推理引擎，专为配备消费级 GPU 的个人电脑设计。其核心设计理念在于利用 激活局部性 来优化性能，从而在有限的硬件条件下实现高效的推理表现。

主要特色

局部性优化设计：PowerInfer 通过稀疏激活以及“热点”“冷点”神经元的设计，提高推理效率，并降低资源消耗。
CPU/GPU 混合利用：将 CPU 与 GPU 的存储和计算能力无缝结合，达到工作负载的平衡和更快的处理速度。
易于使用和灵活性：该引擎与常用的 ReLU 稀疏模型兼容，并针对本地部署进行了深度优化，只需一块消费级 GPU 即可实现低延迟的 LLM 推理和服务。
向后兼容性：尽管与 llama.cpp 的设计有所不同，PowerInfer 兼容其大部分功能，如服务器及批处理生成，还支持使用 llama.cpp 的模型权重。

模型兼容性

PowerInfer 能够兼容多种模型系列，如 LLaMA(ReLU)、Falcon(ReLU)、ProSparse-LLaMA 和 Bamboo，这使得它在不同处理器和操作系统上都有良好的适应性。

操作指南

安装与设置

依赖要求：需要安装 CMake（3.17+）和 Python（3.8+），用于模型权重转换和 FFN（前馈神经网络）离线处理。

获取代码

git clone https://github.com/SJTU-IPADS/PowerInfer
cd PowerInfer
pip install -r requirements.txt

构建

如果您拥有 NVIDIA GPU:

cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release

对于 AMD GPU:

CC=/opt/rocm/llvm/bin/clang CXX=/opt/rocm/llvm/bin/clang++ cmake -S . -B build -DLLAMA_HIPBLAS=ON -DAMDGPU_TARGETS=gfx1100
cmake --build build --config Release

只有 CPU 时:

cmake -S . -B build
cmake --build build --config Release

模型权重

PowerInfer 模型以特定格式存储，包括 LLM 权重和预测器权重。用户可从 Hugging Face 下载适合的模型权重，并通过 PowerInfer 提供的工具进行转换和使用。

推理执行

在指定配置下运行推理示例:

./build/bin/main -m /PATH/TO/MODEL -n $output_token_count -t $thread_num -p $prompt

评估

PowerInfer 在消费级硬件上的表现与高端服务器级 GPU 相近。与 llama.cpp 相比，PowerInfer 的推理速度提升显著，如在 Falcon 40B 上达到了 11 倍的加速。

FAQ 和其他

项目文档提供了详细的性能调试指南，PowerInfer 特别优化了 INT4 模型的量化支持。用户可以通过项目的 GitHub 页面获取更多帮助和支持。如果遇到问题，用户也可在该页面提交问题报告。

PowerInfer 的发展和优化仍在持续中，后续计划包括支持与更多设备兼容以及提供相应的预测器训练代码。对于技术细节和学术引用，PowerInfer 还提供了相关的学术论文供研究者参考。

PowerInfer 项目简介

主要特色

最新进展

模型兼容性

操作指南

安装与设置

获取代码

构建

模型权重

推理执行

评估

FAQ 和其他

编辑推荐精选

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

iTerms

SimilarWeb流量提升

Sora2视频免费生成

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

商汤小浣熊

讯飞绘文

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号