AIOS: LLM代理操作系统

AIOS的目标是构建一个大型语言模型（LLM）代理操作系统，旨在将大型语言模型嵌入操作系统作为其大脑。AIOS旨在解决LLM代理开发和部署过程中的问题（如调度、上下文切换、内存管理等），以创建一个更好的代理开发者和用户生态系统。

🏠 AIOS架构

AIOS在操作系统内核之上提供LLM内核作为抽象层。该内核促进了代理的安装、执行和使用。此外，AIOS SDK还便于代理的开发和部署。

📰 新闻

[2024-07-10] 📖 AIOS文档模板已上线：代码和网站。
[2024-07-03] 🛠️ AIOS GitHub问题模板现已可用模板。
[2024-06-20] 🔥 现已支持开源LLM（原生huggingface、vllm、ollama）的函数调用。
[2024-05-20] 🚀 新增了更多基于ChatGPT工具调用的代理（即MathAgent、RecAgent、TravelAgent、AcademicAgent和CreationAgent），它们的配置文件和工作流程可以在OpenAGI中找到。
[2024-05-13] 🛠️ 集成了来自HuggingFace的本地模型（扩散模型）作为工具。
[2024-05-01] 🛠️ AIOS中的代理创建已重构，可以在我们的OpenAGI包中找到。
[2024-04-05] 🛠️ AIOS目前支持外部工具调用（谷歌搜索、Wolfram Alpha、Rapid API等）。
[2024-04-02] 🤝 AIOS Discord社区已上线。欢迎加入社区进行讨论、头脑风暴、开发或只是随意聊天！关于如何为AIOS做贡献，请参见CONTRIBUTE。
[2024-03-25] ✈️ 我们的论文AIOS：LLM代理操作系统已发布！
[2023-12-06] 📋 经过几个月的努力，我们的展望论文LLM作为操作系统，代理作为应用：设想AIOS、代理和AIOS-代理生态系统正式发布。

✈️ 入门指南

请查看我们正在编写的文档以获取更多信息。

安装

克隆AIOS

git clone https://github.com/agiresearch/AIOS.git

conda create -n AIOS python=3.11
conda activate AIOS
cd AIOS

如果您有GPU环境，可以使用以下命令安装依赖项

pip install -r requirements-cuda.txt

否则，您可以使用以下命令安装依赖项

pip install -r requirements.txt

快速开始

[!提示]

对于LLM端点的配置，可能需要设置多个API密钥。这里我们提供了.env.example以便更容易配置这些API密钥，您可以直接将.env.example复制为.env，并根据需要设置所需的密钥。

使用OpenAI API

您需要从https://platform.openai.com/api-keys获取OpenAI API密钥。然后将您的OpenAI API密钥设置为环境变量

export OPENAI_API_KEY=<YOUR_OPENAI_API_KEY>

然后使用OpenAI API提供的模型运行main.py

python main.py --llm_name gpt-3.5-turbo # 以gpt-3.5-turbo为例

使用Gemini API

您需要从https://ai.google.dev/gemini-api获取Gemini API密钥

export GEMINI_API_KEY=<YOUR_GEMINI_API_KEY>

然后使用Gemini API提供的模型运行main.py

python main.py --llm_name gemini-1.5-flash # 以gemini-1.5-flash为例

如果您想使用huggingface提供的开源模型，这里我们提供三种选项：

使用ollama
使用原生huggingface模型
使用vllm

使用ollama

您需要从https://ollama.com/下载ollama。

然后您需要从ollama应用程序启动ollama服务器

或在终端中使用以下命令

ollama serve

要使用ollama提供的模型，您需要从https://ollama.com/library拉取可用模型

ollama pull llama3:8b # 以llama3:8b为例

ollama可以支持仅CPU环境，因此如果您没有CUDA环境

您可以通过以下方式使用ollama模型运行aios

python main.py --llm_name ollama/llama3:8b --use_backend ollama # 以ollama/llama3:8b为例

但是，如果您有GPU环境，您也可以传递GPU相关参数来加速使用以下命令

python main.py --llm_name ollama/llama3:8b --use_backend ollama --max_gpu_memory '{"0": "24GB"}' --eval_device "cuda:0" --max_new_tokens 256

使用原生huggingface语言模型

一些huggingface模型需要认证,如果你想使用所有模型,你需要在https://huggingface.co/settings/tokens设置认证令牌, 并使用以下命令将其设置为环境变量

export HF_AUTH_TOKENS=<YOUR_TOKEN_ID>

你可以运行

python main.py --llm_name meta-llama/Meta-Llama-3-8B-Instruct --max_gpu_memory '{"0": "24GB"}' --eval_device "cuda:0" --max_new_tokens 256

默认情况下,huggingface会将模型下载到~/.cache目录。如果你想指定下载目录,可以使用以下命令设置

export HF_HOME=<YOUR_HF_HOME>

使用vllm

如果你想加速huggingface模型的推理,可以使用vllm作为后端。

[!注意]

需要注意的是,vllm目前只支持linux和启用GPU的环境。所以如果你没有这样的环境,需要选择其他选项。

考虑到vllm本身不支持传递指定的GPU ID,你需要设置环境变量,

export CUDA_VISIBLE_DEVICES="0" # 替换为你指定的gpu id

然后运行命令

python main.py --llm_name meta-llama/Meta-Llama-3-8B-Instruct --use_backend vllm --max_gpu_memory '{"0": "24GB"}' --eval_device "cuda:0" --max_new_tokens 256

或者你可以将CUDA_VISIBLE_DEVICES作为前缀传递

CUDA_VISIBLE_DEVICES=0 python main.py --llm_name meta-llama/Meta-Llama-3-8B-Instruct --use_backend vllm --max_gpu_memory '{"0": "24GB"}' --eval_device "cuda:0" --max_new_tokens 256

支持的LLM端点

🖋️ 参考文献

@article{mei2024aios,
  title={AIOS: LLM Agent Operating System},
  author={Mei, Kai and Li, Zelong and Xu, Shuyuan and Ye, Ruosong and Ge, Yingqiang and Zhang, Yongfeng}
  journal={arXiv:2403.16971},
  year={2024}
}
@article{ge2023llm,
  title={LLM as OS, Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem},
  author={Ge, Yingqiang and Ren, Yujie and Hua, Wenyue and Xu, Shuyuan and Tan, Juntao and Zhang, Yongfeng},
  journal={arXiv:2312.03815},
  year={2023}
}