OnPrem.LLM

一个使用非公开数据在本地运行大型语言模型的工具

OnPrem.LLM 是一个简单的 Python 包，可以更轻松地在您自己的机器上使用非公开数据（可能在公司防火墙后）运行大型语言模型（LLMs）。该项目主要受 privateGPT GitHub 仓库的启发，OnPrem.LLM 旨在帮助将本地 LLMs 集成到实际应用中。

完整文档在这里。

安装和使用 OnPrem.LLM 的 Google Colab 演示在这里。

最新消息 🔥

[2024/06] OnPrem.LLM v0.1.0 已发布。有许多新更新！
- 可与任何 OpenAI 兼容的 API 一起使用（例如 vLLM、Ollama、OpenLLM 等）。
- 用于从原始文档提取信息的流程。
- 用于少样本文本分类的流程（即，在极少量标记示例上训练分类器），以及解释少样本预测的能力。
- 默认模型更改为 Mistral-7B-Instruct-v0.2
- API 增强和错误修复

安装

在安装 PyTorch 之后，您可以通过以下步骤安装 OnPrem.LLM：

安装 llama-cpp-python：访问此网站并按照您的操作系统和机器的说明进行操作。对于基于 CPU 的安装（即无 GPU 加速），您可以简单地执行：pip install llama-cpp-python。
安装 OnPrem.LLM：pip install onprem

关于快速 GPU 加速推理，请参阅下面的附加说明。如果在安装 llama-cpp-python 时遇到问题，请参阅 FAQ。

注意： 如果使用 OnPrem.LLM 与通过外部 REST API 提供的 LLM（例如 vLLM、OpenLLM、Ollama），安装 llama-cpp-python 是可选的。只有在尝试直接使用本地安装的模型时，才会要求您安装它。

如何使用

设置

from onprem import LLM

llm = LLM()

默认情况下，会下载并使用一个 7B 参数的模型。但是，您可以轻松地为 LLM 提供您选择的 LLM 的 URL（请参阅下面的代码生成部分示例）。提供给 LLM 的任何额外参数都会直接转发给 llama-cpp-python。从 v0.0.20 版本开始，OnPrem.LLM 支持较新的 GGUF 格式。

向 LLM 发送提示以解决问题

这是少样本提示的示例，我们提供了一个我们想要 LLM 执行的示例。

prompt = """从提供的句子中提取人名。这里有一个例子：
句子：James Gandolfini 和 Paul Newman 是伟大的演员。
人名：
James Gandolfini, Paul Newman
句子：
我喜欢 Cillian Murphy 的演技。Florence Pugh 也很棒。
人名："""

saved_output = llm.prompt(prompt)

Cillian Murphy, Florence Pugh.

其他提示示例在这里显示。

与您的文档对话

答案是从您的文档内容生成的（即检索增强生成或 RAG）。在这里，我们将使用 GPU 卸载来加速使用默认模型的答案生成。然而，Zephyr-7B 模型可能表现更好，响应更快，并在我们的示例笔记本中使用。

from onprem import LLM

llm = LLM(n_gpu_layers=-1)

步骤 1：将文档导入向量数据库

llm.ingest("./sample_data")

在 /home/amaiya/onprem_data/vectordb 创建新的向量存储
从 ./sample_data 加载文档
从 ./sample_data 加载了 12 个新文档
拆分成 153 个文本块（每个最多 500 个字符）
创建嵌入。可能需要几分钟...
导入完成！现在您可以使用 LLM.ask 或 LLM.chat 方法查询您的文档。

加载新文档：100%|██████████████████████| 3/3 [00:00<00:00, 13.71it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.49s/it]

步骤 2：回答关于文档的问题

question = """什么是 ktrain？"""
result = llm.ask(question)

Ktrain 是一个低代码机器学习库，旨在促进从策划和预处理输入到训练、调优、故障排除和应用模型的完整机器学习工作流程。Ktrain 非常适合可能对机器学习和软件编码经验较少的领域专家。

模型用于生成答案的来源存储在 result['source_documents'] 中：

print("\n来源：\n")
for i, document in enumerate(result["source_documents"]):
    print(f"\n{i+1}.> " + document.metadata["source"] + ":")
    print(document.page_content)

来源：

1.> /home/amaiya/projects/ghub/onprem/nbs/sample_data/1/ktrain_paper.pdf: lection (He et al., 2019)。相比之下，ktrain 对这方面的自动化强调较少，而是专注于部分或完全自动化机器学习（ML）工作流程的其他方面。出于这些原因，ktrain 不太像传统的自动化（Auto） 2.> ktrain尽可能地通过算法或设置高性能的默认值来实现自动化,同时也允许用户根据其独特的应用需求做出最佳选择。通过这种方式,ktrain利用自动化来增强和补充人类工程师,而不是试图完全取代他们。这样做可以更好地发挥双方的优势。受fast.ai的Rachel Thomas的一篇博客文章的启发

3.> 以及自定义模型和数据格式。受到其他低代码(和无代码)开源机器学习库如fastai(Howard和Gugger, 2020)和ludwig(Molino等人, 2019)的启发,ktrain旨在通过使编程或数据科学经验有限的初学者和领域专家能够

4.> ktrain:一个用于增强机器学习的低代码库 toML平台,更像是一个"低代码"机器学习平台。通过自动化或半自动化,ktrain促进了从整理和预处理输入(即带有标准答案标签的训练数据)到训练、调优、故障排除和应用模型的完整机器学习工作流程。这样,ktrain非常适合可能对机器学习和软件编码经验较少的领域专家。在可能的情况下,ktrain

测试validate_email函数的不同输入

print("邮箱地址有效:", validate_email("example@example.com")) # 应打印 "True" print("邮箱地址无效:", validate_email("example@")) # 应打印 "False" print("邮箱地址无效:", validate_email("example.com")) # 应打印 "False"

该代码定义了一个名为validate_email的函数，它接受一个电子邮件地址作为输入，并使用正则表达式检查该邮件地址的格式是否正确。这个正则表达式检查的是一个由一个或多个字母、数字、句点、连字符或下划线组成的字符串，后跟@符号，然后是一个或多个字母、句点、连字符或下划线，最后是一个点和两到三个字母。

如果邮箱地址有效，该函数返回True，否则返回False。代码还包括一些测试示例，用于演示如何使用这个函数。

让我们试试上面生成的代码。

``` python
import re


def validate_email(email):
    # 使用正则表达式检查邮箱地址格式是否正确
    pattern = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
    if re.match(pattern, email):
        return True
    else:
        return False


print(validate_email("sam@@openai.com"))  # 无效邮箱地址
print(validate_email("sam@openai"))  # 无效邮箱地址
print(validate_email("sam@openai.com"))  # 有效邮箱地址

False
False
True

生成的代码有时可能需要编辑，但这个代码可以直接使用。

连接到通过REST API提供服务的LLM

OnPrem.LLM可以与任何兼容OpenAI的REST API提供的LLM一起使用。这意味着你可以轻松地将OnPrem.LLM与像vLLM、OpenLLM、Ollama和llama.cpp server这样的工具一起使用。

例如，使用vLLM，你可以像这样部署LLaMA 3模型：

python -m vllm.entrypoints.openai.api_server --model NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123

然后你可以通过提供刚刚启动的服务器的URL来将OnPrem.LLM连接到LLM：

from onprem import LLM
llm = LLM(model_url='http://localhost:8000/v1', api_key='token-abc123') 
# 注意：API密钥可以直接提供，也可以存储在OPENAI_API_KEY环境变量中。
#      如果服务器不需要API密钥，仍然应该提供api_key，可以使用一个虚拟值，如'na'。

就是这样！现在你可以像平常一样使用OnPrem.LLM来解决问题（例如，RAG问答、总结、少样本提示、代码生成等）。

在OnPrem.LLM中使用OpenAI模型

即使在使用本地语言模型时，有时也可能需要轻松访问非本地的基于云的模型（如OpenAI）进行测试、产生比较基准或生成用于微调的合成示例。出于这些原因，尽管名字如此，OnPrem.LLM现在也包含了对OpenAI聊天模型的支持：

from onprem import LLM
llm = LLM(model_url='openai://gpt-3.5-turbo', temperature=0) # ChatGPT

/home/amaiya/projects/ghub/onprem/onprem/core.py:138: UserWarning: 你提供的模型是gpt-3.5-turbo，这是一个外部服务（即非本地）。请谨慎使用，因为你的数据和提示将被发送到外部。
  warnings.warn(f'你提供的模型是{self.model_name}，这是一个外部服务（即非本地）。'+\

saved_result = llm.prompt('列出三个可爱的猫咪名字，并解释为什么每个名字都很可爱。')

1. 胡须：胡须是一个可爱的猫咪名字，因为它完美地描述了猫咪最可爱的特征之一 - 它们长长的、精致的胡须。这是一个俏皮而令人喜爱的名字，捕捉了猫咪魅力的精髓。

2. 布丁：布丁是一个非常可爱的猫咪名字，因为它唤起了柔软和甜美的感觉。就像一碗奶油布丁一样，这个名字让人联想到猫咪的可爱和讨人喜欢的天性。这个名字会立即让你想要抱抱你的毛茸茸的朋友。

3. 玛芬：玛芬是一个adorable的猫咪名字，因为它让人联想到小巧、圆润且无法抗拒的可爱 - 就像一只猫！这个名字既俏皮又迷人，完美地捕捉了我们猫咪伙伴那令人愉悦和可爱的本性。

Azure OpenAI

对于Azure OpenAI模型，使用以下URL格式：

llm = LLM(model_url='azure://<deployment_name>', ...) 
# <deployment_name>是Azure部署名称，其他Azure特定参数
# 可以作为额外参数提供给LLM（或设置为环境变量）

引导式提示

你可以将OnPrem.LLM与Guidance包一起使用，以根据你的条件和约束引导LLM生成输出。我们在这里会展示几个例子，但更多信息请参阅我们关于引导式提示的文档。

from onprem import LLM

llm = LLM(n_gpu_layers=-1, verbose=False)
from onprem.guider import Guider
guider = Guider(llm)

使用Guider，你可以使用正则表达式来控制LLM的生成：

prompt = f"""问题：Luke有十个球。他给了他弟弟三个。他还剩下多少个球？
回答：""" + gen(name='answer', regex='\d+')

guider.prompt(prompt, echo=False)

{'answer': '7'}

prompt = '19, 18,' + gen(name='output', max_tokens=50, stop_regex='[^\d]7[^\d]')
guider.prompt(prompt)

19、18、17、16、15、14、13、12、11、10、9、8、

{'output': ' 17, 16, 15, 14, 13, 12, 11, 10, 9, 8,'}

查看文档获取更多关于如何在OnPrem.LLM中使用Guidance的示例。

内置Web应用

OnPrem.LLM包含一个内置的Web应用程序，用于访问LLM。安装后，运行以下命令启动它：

onprem --port 8000

然后，在Web浏览器中输入localhost:8000（如果在远程服务器上运行，则输入<域名>:8000）来访问应用程序：

更多信息，请参阅相应的文档。

使用GPU加速推理

上述示例使用了CPU。如果你有GPU（即使是较旧的、VRAM较少的GPU），你也可以加速响应。有关在你的系统上安装支持GPU的llama-cpp-python的信息，请参阅LangChain关于LLama.cpp的文档。

以下步骤描述了如何安装和使用支持cuBLAS的llama-cpp-python，可用于在配备NVIDIA GPU的系统（如Linux、WSL2、Google Colab）上进行GPU加速。

步骤1：安装支持cuBLAS的`llama-cpp-python`

CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir

# Mac用户请将上面的命令替换为：
# CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install --upgrade --force-reinstall llama-cpp-python --no-cache-dir

步骤2：在`LLM`中使用`n_gpu_layers`参数

llm = LLM(n_gpu_layers=35)

n_gpu_layers的值取决于您的GPU内存和您使用的模型（例如，默认7B模型的最大值为33）。设置n_gpu_layers=-1可将所有层卸载到GPU（这将把所有33层卸载到默认模型）。如果出现错误（如CUDA error: out-of-memory），您可以降低该值。例如，使用两个旧的NVIDIA TITAN V GPU，每个有12GB的VRAM，可以将量化的Llama-2 70B模型中的83层中的59层卸载到GPU（即60层或更多会导致"CUDA内存不足"错误）。

按照上述步骤，调用llm.prompt等方法时将把计算卸载到您的GPU，加快LLM的响应速度。

以上假设已安装NVIDIA驱动和CUDA工具包。在Ubuntu Linux系统上，可以通过一条命令完成安装。

常见问题

如何在OnPrem.LLM中使用其他模型？

您可以向LLM构造函数提供其他模型的URL，就像我们在上面的代码生成示例中所做的那样。

从v0.0.20版本开始，我们支持GGUF格式的模型，它取代了旧的GGML格式。您可以在huggingface.co上找到文件名中带有GGUF的llama.cpp支持的模型。

确保您指向的是实际GGUF模型文件的URL，即模型页面上的"下载"链接。下面展示了Mistral-7B的示例：

[图片]

请注意，某些模型有特定的提示格式。例如，Zephyr-7B模型需要的提示模板，如模型页面所述，是：

<|system|>\n</s>\n<|user|>\n{prompt}</s>\n<|assistant|>

因此，要使用Zephyr-7B模型，您必须向LLM构造函数提供prompt_template参数（或在Web应用的webapp.yml配置中指定）。
```
# 如何在OnPrem.LLM中使用Zephyr-7B
llm = LLM(model_url='https://huggingface.co/TheBloke/zephyr-7B-beta-GGUF/resolve/main/zephyr-7b-beta.Q4_K_M.gguf',
          prompt_template = "<|system|>\n</s>\n<|user|>\n{prompt}</s>\n<|assistant|>",
          n_gpu_layers=33)
llm.prompt("列出三个可爱的猫咪名字。")
```
我在公司防火墙后面，尝试下载模型时收到SSL错误？

尝试以下方法：
```
from onprem import LLM
LLM.download_model(url, ssl_verify=False)
```
您可以按如下方式下载嵌入模型（用于LLM.ingest和LLM.ask）：
```
wget --no-check-certificate https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/all-MiniLM-L6-v2.zip
```
将解压后的文件夹名称作为embedding_model_name参数提供给LLM。
如何在没有互联网访问的机器上使用？

使用LLM.download_model方法将模型文件下载到<your_home_directory>/onprem_data，然后将它们传输到离线机器上的相同位置。

对于ingest和ask方法，您还需要下载并传输嵌入模型文件：
```
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
model.save('/some/folder')
```
将some/folder文件夹复制到离线机器，并通过embedding_model_name参数将路径提供给LLM。
在安装onprem时，我在Windows/Mac/Linux上遇到与llama-cpp-python相关的错误？

请参阅LangChain关于LLama.cpp的文档，了解如何为您的系统安装llama-cpp-python包。以下是针对不同操作系统的额外提示：

对于Linux系统（如Ubuntu），尝试以下命令：sudo apt-get install build-essential g++ clang。其他提示可以在这里找到。

对于Windows系统，可以使用Windows Subsystem for Linux (WSL)或安装Microsoft Visual Studio build tools，并确保安装了这篇文章中显示的选项。推荐使用WSL。

对于Mac，请尝试按照这些提示操作。

如果仍有问题，这个privateGPT仓库线程中有针对上述各种操作系统的其他提示。当然，您也可以轻松地在Google Colab上使用OnPrem.LLM。
在Google Colab上，llama-cpp-python无法从模型路径加载我的模型。

由于不明原因，较新版本的llama-cpp-python在Google Colab上无法加载模型，除非您向LLM构造函数提供verbose=True（这直接传递给llama-cpp-python）。如果您在本地遇到此问题，请尝试向LLM提供verbose=True。
在实例化langchain.llms.Llamacpp或onprem.LLM对象时，我遇到了"Illegal instruction (core dumped)"错误？

由于某些原因（例如，因为VirtualBox设置中的Hyper-V），你的CPU可能不支持cmake正在使用的指令。你可以在构建和安装llama-cpp-python时尝试关闭这些指令：

# 示例
CMAKE_ARGS="-DLLAMA_CUBLAS=ON -DLLAMA_AVX2=OFF -DLLAMA_AVX=OFF -DLLAMA_F16C=OFF -DLLAMA_FMA=OFF" FORCE_CMAKE=1 pip install --force-reinstall llama-cpp-python --no-cache-dir