![license](https://raw.githubusercontent.com/StarlightSearch/EmbedAnything/main/ https://img.shields.io/badge/License-Apache-blue.svg) ![package](https://raw.githubusercontent.com/StarlightSearch/EmbedAnything/main/ https://img.shields.io/badge/Package-PYPI-blue.svg)

</div> <div align="center"> 使用简洁高效的Rust框架生成和流式传输您的嵌入🦀 <a href="https://starlightsearch.github.io/EmbedAnything/references/">探索文档 »</a> <a href=https://youtu.be/HLXIuznnXcI>查看演示</a> · <a href="https://github.com/StarlightSearch/EmbedAnything/tree/main/examples">示例</a> · <a href="https://github.com/StarlightSearch/EmbedAnything/tree/main/examples/adapters">向量流适配器</a> . <a href="https://huggingface.co/spaces/akshayballal/search_in_audio">音频空间搜索</a> </div>

EmbedAnything是一个极简但高性能、轻量级、极速的多源、多模态本地嵌入管道,由Rust构建。无论您是处理文本、图像、音频、PDF、网页还是其他媒体,EmbedAnything都可以简化从各种来源生成嵌入并将其流式传输到向量数据库的过程。

<details> <summary>目录</summary> <ol> <li> <a href="#about-the-project">关于本项目</a> <ul> <li><a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#the-benefit-of-rust-for-speed">以Rust构建</a></li> <li><a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#why-candle">为什么选择Candle?</a></li> </ul> </li> <li> <a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#-getting-started">入门</a> <ul> <li><a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#-installation">安装</a></li> </ul> </li> <li><a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#-getting-started">使用</a></li> <li><a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#roadmap">路线图</a></li> <li><a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#quick-start">贡献</a></li> <li><a href="https://github.com/StarlightSearch/EmbedAnything?tab=readme-ov-file#Supported-Models">如何添加自定义模型和块大小</a></li> </ol> </details>

🚀 主要特性

本地嵌入: 支持BERT和JINA等本地嵌入模型
云端嵌入模型: 支持OpenAI,即将支持Mistral和Cohere
多模态: 支持文本源如PDF、txt、md,图像JPG,音频.WAV
Rust: 所有文件处理都是用Rust进行,以获得速度和效率
Candle: 我们还处理了硬件加速,使用了Candle。
Python接口: 打包为Python库,可无缝集成到现有项目中。
可扩展: 将嵌入存储在向量数据库中,以便轻松检索和扩展。
向量流: 如果您的资源有限,可以持续创建和流式传输嵌入。

🦀 为什么选择EmbedAnything

➡️执行更快速。 ➡️内存管理:Rust同时强制执行内存管理,防止内存泄漏和崩溃。 ➡️真正的多线程 ➡️本地和高效地运行语言模型或嵌入模型 ➡️Candle允许直接在CUDA启用的GPU上进行推理。 ➡️降低EmbedAnything的内存使用。

⭐ 支持的模型

我们支持一系列可由Candle支持的模型,我们提供了一组经过测试的模型,但如果您有特定的用例,请在issues中提出。

如何添加自定义模型和块大小。

jina_config = JinaConfig(
    model_id="Custom link given below", revision="main", chunk_size=100
)
embed_config = EmbedConfig(jina=jina_config)

这是一个英语到中文的翻译，请提供这个源文本的中文翻译。不要提供任何解释或文本,除了翻译。请注意：翻译需要符合中文语序、流程和通顺性。需要翻译的源文本被包裹在XML标签中。

模型	自定义链接
Jina	jinaai/jina-embeddings-v2-base-en
jinaai/jina-embeddings-v2-small-en
Bert	sentence-transformers/all-MiniLM-L6-v2
sentence-transformers/all-MiniLM-L12-v2
sentence-transformers/paraphrase-MiniLM-L6-v2
Clip	openai/clip-vit-base-patch32
Whisper	大多数来自huggingface的OpenAI Whisper模型

🧑‍🚀 入门

💚 安装

pip install embed-anything

使用

使用本地嵌入：我们支持Bert和Jina

import embed_anything
data = embed_anything.embed_file("file_path.pdf", embeder= "Bert")
embeddings = np.array([data.embedding for data in data])

用于多模态嵌入：我们支持CLIP

需求带有猫、狗等图片的目录,例如我们有test_files

import embed_anything
data = embed_anything.embed_directory("directory_path", embeder= "Clip")
embeddings = np.array([data.embedding for data in data])

query = ["photo of a dog"]
query_embedding = np.array(embed_anything.embed_query(query, embeder= "Clip")[0].embedding)
similarities = np.dot(embeddings, query_embedding)
max_index = np.argmax(similarities)
Image.open(data[max_index].text).show()

使用Whisper进行音频嵌入

需求: 音频.wav文件

import embed_anything
from embed_anything import JinaConfig, EmbedConfig, AudioDecoderConfig
import time

start_time = time.time()

# 从 https://huggingface.co/distil-whisper或 https://huggingface.co/collections/openai/whisper-release-6501bba2cf999715fd953013 选择任何whisper或 distilwhisper模型
audio_decoder_config = AudioDecoderConfig(
    decoder_model_id="openai/whisper-tiny.en",
    decoder_revision="main",
    model_type="tiny-en",
    quantized=False,
)
jina_config = JinaConfig(
    model_id="jinaai/jina-embeddings-v2-small-en", revision="main", chunk_size=100
)

config = EmbedConfig(jina=jina_config, audio_decoder=audio_decoder_config)
data = embed_anything.embed_file(
    "test_files/audio/samples_hp0.wav", embeder="Audio", config=config
)
print(data[0].metadata)
end_time = time.time()
print("时间花费: ", end_time - start_time)

🚧 为EmbedAnything做贡献

首先,非常感谢你为这个项目做出贡献。我们非常感谢你的贡献,无论是错误报告、功能建议还是拉取请求。你的时间和精力在这个项目中都是非常宝贵的。 🚀

这个文档提供了一些指导方针和最佳实践,帮助你更有效地做出贡献。这些只是作为指导方针,而不是严格的规则。我们鼓励你根据自己的最佳判断来使用,并通过拉取请求来提出对这个文件的更改建议。

路线图

EmbedAnything的目标之一是允许AI工程师在典型的文件和文档上轻松使用最新的嵌入模型。这里已经完成了很多工作,以下是我们目前支持的格式,还有一些需要完成。 ✅ Markdown、PDF和网站 ✅ WAV文件 ✅ JPG、PNG、webp ✅为音频嵌入添加whisper ✅上传自定义模型,任何在candle中可用的模型 ✅自定义块大小 ✅Pinecone适配器,直接保存在上面 ✅零shot应用