Llama-2-Open-Source-LLM-CPU-Inference是一个开源项目,旨在演示如何在CPU上运行Llama 2等开源大语言模型(LLM)进行文档问答。该项目由Kenneth Leung开发,提供了一个清晰的指南,介绍如何使用量化版本的开源LLM在本地CPU上进行推理。

从Hugging Face下载GGML二进制文件并放入models/文件夹
在项目目录下运行以下命令来解析用户查询:
poetry run python main.py "<用户查询>"
例如:
poetry run python main.py "What is the minimum guarantee payable by Adidas?"
如果不使用Poetry,可以省略poetry run前缀

/assets: 项目相关图片/config: LLM应用配置文件/data: 项目使用的数据集(曼联2022年年报PDF文档)/models: GGML量化LLM模型二进制文件/src: LLM应用核心组件Python代码/vectorstore: 文档FAISS向量存储db_build.py: 用于摄取数据集并生成FAISS向量存储的Python脚本main.py: 用于启动应用程序并通过命令行传递用户查询的主Python脚本通过本项目,读者可以学习如何在CPU上运行开源大语言模型,实现本地文档问答系统,这对于需要自主管理模型部署或遵守数据隐私规定的团队来说尤其有价值。项目不仅提供了实用的代码实现,还详细解释了相关概念和技术,是学习大语言模型应用开发的优秀资源。