Label Studio ML 后端是什么?

Label Studio ML 后端是一个 SDK，可以让您包装机器学习代码并将其转换为 Web 服务器。该 Web 服务器可以连接到正在运行的 Label Studio 实例，以自动化标注任务。

如果您只需要将静态预标注数据加载到 Label Studio 中，运行 ML 后端可能对您来说有些过头了。相反，您可以导入预标注数据。

快速开始

要开始使用模型，请使用 docker-compose 运行 ML 后端服务器。

使用以下命令在 http://localhost:9090 上启动 ML 后端服务：

git clone https://github.com/HumanSignal/label-studio-ml-backend.git
cd label-studio-ml-backend/label_studio_ml/examples/{MODEL_NAME}
docker-compose up

将 {MODEL_NAME} 替换为您想要使用的模型名称（见下文）。

允许 ML 后端访问 Label Studio 数据

在大多数情况下，您需要设置 LABEL_STUDIO_URL 和 LABEL_STUDIO_API_KEY 环境变量，以允许 ML 后端访问 Label Studio 中的媒体数据。在文档中阅读更多信息。

模型

该仓库支持以下模型。其中一些模型无需额外设置即可工作，而某些模型则需要设置额外参数。

查看必需参数列，了解是否需要设置任何额外参数。

预标注列表示该模型是否可用于 Label Studio 中的预标注：
打开标注页面时可以看到预标注数据，或者在对一批数据运行预测后可以看到。
交互模式列表示该模型是否可用于 Label Studio 中的交互式标注：在标注页面执行操作时可以看到交互式预测。
训练列表示该模型是否可用于 Label Studio 中的训练：根据提交的标注更新模型状态。

[模型列表略]

(高级用法) 开发您的模型

要开始开发您自己的 ML 后端，请按照以下说明进行操作。

1. 安装

从仓库下载并安装 label-studio-ml：

git clone https://github.com/HumanSignal/label-studio-ml-backend.git
cd label-studio-ml-backend/
pip install -e .

2. 创建空的 ML 后端：

label-studio-ml create my_ml_backend

您可以进入 my_ml_backend 目录并修改代码以实现您自己的推理逻辑。

目录结构应该如下所示：

my_ml_backend/
├── Dockerfile
├── docker-compose.yml
├── model.py
├── _wsgi.py
├── README.md
└── requirements.txt

Dockefile 和 docker-compose.yml 用于使用 Docker 运行 ML 后端。 model.py 是主文件，您可以在其中实现自己的训练和推理逻辑。 _wsgi.py 是一个辅助文件，用于使用 Docker 运行 ML 后端（您无需修改它）。 README.md 是一个包含如何运行 ML 后端说明的自述文件。 requirements.txt 是一个包含 Python 依赖项的文件。

3. 实现预测逻辑

在您的模型目录中，找到 model.py 文件（例如，my_ml_backend/model.py）。

model.py 文件包含一个继承自 LabelStudioMLBase 的类声明。这个类为 Label Studio 用来与 ML 后端通信的 API 方法提供了包装器。您可以重写这些方法来实现自己的逻辑：

def predict(self, tasks, context, **kwargs):
    """为任务做出预测。"""
    return predictions

predict 方法用于为任务做出预测。它使用以下内容：

tasks：JSON 格式的 Label Studio 任务
context：JSON 格式的 Label Studio 上下文 - 用于交互式标注场景
predictions：JSON 格式的预测数组

一旦您实现了 predict 方法，您就可以在 Label Studio 中看到来自连接的 ML 后端的预测。

4. 实现训练逻辑（可选）

您还可以实现 fit 方法来训练您的模型。fit 方法通常用于在标注数据上训练模型，尽管它可以用于任何需要数据持久化的任意操作（例如，将标注数据存储在数据库中、保存模型权重、保留 LLM 提示历史等）。

默认情况下，fit 方法在 Label Studio 中的任何数据操作时都会被调用，比如创建新任务或更新标注。您可以从项目设置的Webhooks部分修改此行为。

要实现 fit 方法，您需要在 model.py 文件中重写 fit 方法：

def fit(self, event, data, **kwargs):
    """在标注数据上训练模型。"""
    old_model = self.get('old_model')
    # 编写您的逻辑来更新模型
    self.set('new_model', new_model)

其中

event：事件类型可以是 'ANNOTATION_CREATED'、'ANNOTATION_UPDATED' 等。
data：从事件接收的有效负载（查看更多Webhook 事件参考）

此外，还有两个辅助方法，您可以用它们来存储和检索 ML 后端中的数据：

self.set(key, value) - 在 ML 后端中存储数据
self.get(key) - 从 ML 后端检索数据

这两个方法可以在 ML 后端代码的其他地方使用，例如在 predict 方法中获取新的模型权重。

其他方法和参数

LabelStudioMLBase 类中还有其他可用的方法和参数：

self.label_config - 返回 Label Studio 标注配置的 XML 字符串。
self.parsed_label_config - 返回 Label Studio 标注配置的 JSON 格式。
self.model_version - 返回当前模型版本。
self.get_local_path(url, task_id) - 这个辅助函数用于下载和缓存通常存储在 task['data'] 中的 URL，并返回其本地路径。URL 可以是：LS 上传文件、LS 本地存储、LS 云存储或任何其他 http(s) URL。

不使用 Docker 运行

要不使用 Docker 运行（例如，用于调试目的），你可以使用以下命令：

label-studio-ml start my_ml_backend

测试你的 ML 后端

修改 my_ml_backend/test_api.py 以确保你的 ML 后端按预期工作。

修改端口

要修改端口，使用 -p 参数：

label-studio-ml start my_ml_backend -p 9091

将你的 ML 后端部署到 GCP

开始之前：

安装 gcloud。
如果尚未激活，请为你的账户初始化计费。
初始化 gcloud，输入以下命令并通过浏览器登录：

gcloud auth login

激活你的 Cloud Build API。
找到你的 GCP 项目 ID。
（可选）将 GCP_REGION 和你的默认区域添加到环境变量中。

开始部署：

创建你自己的 ML 后端
开始部署到 GCP：

label-studio-ml deploy gcp {ml-backend-local-dir} \
--from={model-python-script} \
--gcp-project-id {gcp-project-id} \
--label-studio-host {https://app.heartex.com} \
--label-studio-api-key {YOUR-LABEL-STUDIO-API-KEY}

Label Studio 部署模型后，你可以在控制台中找到模型端点。

故障排除

Windows 上 Docker 构建的故障排除

如果在 Windows 上运行 docker-compose up --build 时遇到类似以下的错误：

exec /app/start.sh : No such file or directory
exited with code 1

这个问题很可能是由 Windows 处理文本文件中的行结束符造成的，这可能会影响像 start.sh 这样的脚本。要解决这个问题，请按照以下步骤操作：

步骤 1：调整 Git 配置

在克隆仓库之前，确保你的 Git 配置为在检出文件时不自动将行结束符转换为 Windows 风格（CRLF）。这可以通过将 core.autocrlf 设置为 false 来实现。打开 Git Bash 或你喜欢的终端，执行以下命令：

git config --global core.autocrlf false

步骤 2：重新克隆仓库

如果你在调整 Git 配置之前已经克隆了仓库，你需要重新克隆它以确保正确保留行结束符：

删除现有的本地仓库。 确保你已备份任何更改或进行中的工作。
重新克隆仓库。 使用标准的 Git 克隆命令将仓库克隆到你的本地机器。

步骤 3：构建和运行 Docker 容器

导航到克隆仓库中包含 Dockerfile 和 docker-compose.yml 的适当目录。然后，执行 Docker 命令：

构建 Docker 容器： 运行 docker-compose build 以根据 docker-compose.yml 中指定的配置构建 Docker 容器。
启动 Docker 容器： 构建过程完成后，使用 docker-compose up 启动容器。

其他注意事项

这个解决方案专门针对在 Windows 上因自动转换行结束符而遇到的问题。如果你使用其他操作系统，这个解决方案可能不适用。
记得检查你项目的 .gitattributes 文件（如果存在），因为它也可能影响 Git 如何处理你文件中的行结束符。

通过遵循这些步骤，你应该能够解决在 Windows 上由于行结束符转换而导致 Docker 无法识别 start.sh 脚本的问题。

Docker 镜像中 Pip 缓存重置的故障排除

有时，你可能想重置 pip 缓存以确保安装最新版本的依赖。例如，Label Studio ML Backend 库在 requirements.txt 中被用作 label-studio-ml @ git+https://github.com/HumanSignal/label-studio-ml-backend.git。假设它已更新，你想在包含 ML 模型的 docker 镜像中使用最新版本。

你可以使用以下命令从头开始重新构建 docker 镜像：