Embetter: 快速构建嵌入式学习流水线的强大工具

Embetter:快速构建嵌入式学习流水线的强大工具

Embetter是一个为计算机视觉和文本处理提供兼容scikit-learn的嵌入式工具库。它的目标是帮助开发人员快速构建概念验证和批量标注流水线,同时与其他流行的机器学习工具无缝集成。

Image 1: a black background with a plane flying in the sky

主要特性

兼容scikit-learn: Embetter中的所有组件都与scikit-learn兼容,可以直接在scikit-learn流水线中使用。
支持多种模态: 提供用于计算机视觉和文本处理的嵌入式工具。
易于使用: 设计简洁的API,让用户可以快速上手并构建原型。
灵活性: 支持多种嵌入方法,用户可以根据需求选择合适的工具。
批量学习支持: 兼容scikit-learn的partial_fit机制,可以处理超出内存的大规模数据集。

安装

Embetter可以通过pip安装:

python -m pip install embetter

用户还可以根据需求安装特定功能:

python -m pip install "embetter[text]"
python -m pip install "embetter[vision]"
python -m pip install "embetter[all]"

API概览

Embetter提供了多个模块,包括:

embetter.grab: 用于从pandas列中提取文本或图像数据
embetter.vision: 用于计算机视觉的表示和辅助工具
embetter.text: 用于文本处理的表示工具
embetter.multi: 用于多模态模型的表示
embetter.finetune: 用于微调的组件
embetter.external: 外部嵌入提供者(通常需要API密钥)

文本处理示例

以下是一个使用Embetter进行文本分类的简单示例:

import pandas as pd
from sklearn.pipeline import make_pipeline 
from sklearn.linear_model import LogisticRegression

from embetter.grab import ColumnGrabber
from embetter.text import SentenceEncoder

# 创建文本嵌入流水线
text_emb_pipeline = make_pipeline(
  ColumnGrabber("text"),
  SentenceEncoder('all-MiniLM-L6-v2')
)

# 创建分类流水线
text_clf_pipeline = make_pipeline(
  text_emb_pipeline,
  LogisticRegression()
)

# 准备数据
dataf = pd.DataFrame({
  "text": ["positive sentiment", "super negative"],
  "label_col": ["pos", "neg"]
})

# 训练和预测
X = text_emb_pipeline.fit_transform(dataf, dataf['label_col'])
text_clf_pipeline.fit(dataf, dataf['label_col']).predict(dataf)

图像处理示例

Embetter也支持图像处理:

import pandas as pd
from sklearn.pipeline import make_pipeline 

from embetter.grab import ColumnGrabber
from embetter.vision import ImageLoader
from embetter.multi import ClipEncoder

# 创建图像嵌入流水线
image_emb_pipeline = make_pipeline(
  ColumnGrabber("img_path"),
  ImageLoader(convert="RGB"),
  ClipEncoder()
)

# 准备数据
dataf = pd.DataFrame({
  "img_path": ["tests/data/thiscatdoesnotexist.jpeg"]
})

# 转换图像
image_emb_pipeline.fit_transform(dataf)