
提供简洁易用的文本和图像嵌入模型集成工具
embetter是一个兼容scikit-learn的Python库,专注于文本和图像嵌入模型。该库集成了Sentence-Transformers、CLIP等多种预训练模型,便于在机器学习流程中使用。其简洁的设计支持批量处理和增量学习,适用于快速概念验证和批量标记。embetter能与bulk和scikit-partial等工具良好配合,为开发者提供灵活的嵌入解决方案。
<img src="https://yellow-cdn.veclightyear.com/ab5030c0/e769b093-0d2b-4a00-97a6-cf3c73b93923.png" width="125" height="125" align="right" /> <br>"只是一堆可以快速上手的实用嵌入。"
Embetter为计算机视觉和文本实现了兼容scikit-learn的嵌入。它应该可以让你非常容易地使用scikit-learn管道快速构建概念验证,特别是应该有助于批量标记。它也旨在与bulk和scikit-partial配合使用,但它也可以与你喜欢的ANN解决方案(如lancedb)一起使用。
你可以通过pip安装。
python -m pip install embetter
许多嵌入是可选的,取决于你的用例,所以如果你想精挑细选,只下载你需要的工具:
python -m pip install "embetter[text]"
python -m pip install "embetter[spacy]"
python -m pip install "embetter[sense2vec]"
python -m pip install "embetter[gensim]"
python -m pip install "embetter[bpemb]"
python -m pip install "embetter[vision]"
python -m pip install "embetter[all]"
这是目前正在实现的内容。
# 从pandas列中获取文本或图像的辅助工具 from embetter.grab import ColumnGrabber # 用于计算机视觉的表示/辅助工具 from embetter.vision import ImageLoader, TimmEncoder, ColorHistogramEncoder # 用于文本的表示 from embetter.text import SentenceEncoder, MatryoshkaEncoder, Sense2VecEncoder, BytePairEncoder, spaCyEncoder, GensimEncoder # 来自多模态模型的表示 from embetter.multi import ClipEncoder # 微调组件 from embetter.finetune import FeedForwardTuner, ContrastiveTuner, ContrastiveLearner, SbertLearner # 外部嵌入提供者,通常需要API密钥 from embetter.external import CohereEncoder, OpenAIEncoder
所有这些组件都与scikit-learn兼容,这意味着你可以像在scikit-learn管道中正常使用它们一样应用它们。只需注意 这些组件是无状态的。它们不需要训练,因为这些都是预训练的工具。
import pandas as pd from sklearn.pipeline import make_pipeline from sklearn.linear_model import LogisticRegression from embetter.grab import ColumnGrabber from embetter.text import SentenceEncoder # 这个管道从数据框中获取"text"列 # 然后将其输入到Sentence-Transformers的all-MiniLM-L6-v2中。 text_emb_pipeline = make_pipeline( ColumnGrabber("text"), SentenceEncoder('all-MiniLM-L6-v2') ) # 这个管道也可以被训练来进行预测,使用 # 嵌入的特征。 text_clf_pipeline = make_pipeline( text_emb_pipeline, LogisticRegression() ) dataf = pd.DataFrame({ "text": ["positive sentiment", "super negative"], "label_col": ["pos", "neg"] }) X = text_emb_pipeline.fit_transform(dataf, dataf['label_col']) text_clf_pipeline.fit(dataf, dataf['label_col']).predict(dataf)
API的目标是允许像这样的管道:
import pandas as pd from sklearn.pipeline import make_pipeline from sklearn.linear_model import LogisticRegression from embetter.grab import ColumnGrabber from embetter.vision import ImageLoader from embetter.multi import ClipEncoder # 这个管道从数据框中获取"img_path"列 # 然后获取图像路径并将它们转换为`PIL.Image`对象 # 然后将它们输入到CLIP中,CLIP也可以处理图像。 image_emb_pipeline = make_pipeline( ColumnGrabber("img_path"), ImageLoader(convert="RGB"), ClipEncoder() ) dataf = pd.DataFrame({ "img_path": ["tests/data/thiscatdoesnotexist.jpeg"] }) image_emb_pipeline.fit_transform(dataf)
你在这里看到的所有编码工具也与scikit-learn中的partial_fit机制兼容。这意味着你可以利用scikit-partial来构建可以处理核外数据集的管道。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、 安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光

