Distributed Llama: 在家庭设备上运行大型语言模型的革命性方案

Distributed Llama:让家用设备运行超大语言模型成为可能

在人工智能快速发展的今天,大型语言模型(LLM)的规模和性能不断突破,但随之而来的是对计算资源的巨大需求。对于普通AI爱好者和研究者来说,在本地运行最新的大型语言模型往往是一个遥不可及的梦想。然而,一个名为Distributed Llama的开源项目正在改变这一现状,它通过创新的分布式计算方法,让普通家用设备也能运行如Llama 3 405B这样的超大模型。

项目概述

Distributed Llama是由开发者Bartłomiej Tadych创建的开源项目,旨在通过张量并行化技术,将大型语言模型的工作负载分散到多个设备上。这种方法不仅可以分散内存使用,还能显著提高推理速度。项目的核心思想是:"张量并行化就是你所需要的一切"。

通过使用TCP套接字来同步状态,Distributed Llama允许用户轻松地使用家用路由器配置AI集群。这意味着,即使是性能较弱的设备,也可以通过组网的方式共同承担起运行大型语言模型的任务。

Distributed Llama架构图

主要特性

支持多种模型: 项目支持运行包括TinyLlama、Llama 3、Llama 3.1等多种规模的模型,最大可支持405B参数的Llama 3.1模型。
灵活的设备支持: 可以在Raspberry Pi、普通PC、云服务器等多种设备上运行,支持ARM和x86_64 AVX2 CPU。
高效的量化技术: 使用Q40量化权重和Q80缓冲区格式,大幅降低内存需求。
简单的部署流程: 提供了详细的部署指南,适用于Raspberry Pi、MacOS、Linux和Windows系统。
开放的贡献机制: 鼓励社区参与,不断优化和改进项目。

性能测试

Distributed Llama在多种设备配置下进行了详细的性能测试。以下是一些关键数据:

Raspberry Pi 5 8GB:
- Llama 2 7B模型: 单设备441.09ms/token, 4设备219.08ms/token
- Llama 3 8B模型: 单设备564.31ms/token, 4设备331.47ms/token
Raspberry Pi 4B 8GB:
- Llama 2 70B模型: 8设备配置下可达到4842.81ms/token
x86_64 CPU云服务器:
- Llama 2 70B模型: 单VM 909.69ms/token, 4VM 293.06ms/token