VectorDB: 一个你所需要的Python向量数据库

VectorDB简介

VectorDB是一个专为Python开发者设计的向量数据库,它遵循"你所需要的 - 不多也不少"的理念,提供了一个精简但强大的解决方案。VectorDB建立在DocArray和Jina两个强大框架之上,结合了DocArray的高效向量搜索能力和Jina的可扩展服务能力,为用户提供了一个强大而易用的向量数据库体验。

VectorDB的主要特性

用户友好的接口: VectorDB设计简洁直观,适合各种水平的用户使用。
极简设计: 包含所有必要功能,没有多余的复杂性,确保从本地到服务器再到云端部署的无缝过渡。
完整的CRUD支持: 支持索引、搜索、更新和删除等全套操作。
数据库即服务: 支持gRPC、HTTP和Websocket协议,让你能够高效地提供数据库服务并进行插入或搜索操作。
可扩展性: 提供分片和复制等强大的可扩展性特性,通过分片提高服务延迟,通过复制增强可用性和吞吐量。
云部署: 可以轻松地在Jina AI Cloud上部署你的服务。
无服务器能力: 可以在云端以无服务器模式部署,确保根据你的需求优化资源利用和数据可用性。
多种ANN算法: 提供多种近似最近邻(ANN)算法实现,包括:
- InMemoryExactNNVectorDB: 实现简单的最近邻算法
- HNSWVectorDB: 利用HNSWLib实现基于HNSW的搜索

快速上手

本地使用VectorDB

首先定义文档模式:

from docarray import BaseDoc
from docarray.typing import NdArray

class ToyDoc(BaseDoc):
  text: str = ''
  embedding: NdArray[128]

选择预构建的数据库并应用模式:

from docarray import DocList
import numpy as np
from vectordb import InMemoryExactNNVectorDB

# 指定工作空间路径
db = InMemoryExactNNVectorDB[ToyDoc](workspace='./workspace_path')

# 索引一组带有随机嵌入的文档
doc_list = [ToyDoc(text=f'toy doc {i}', embedding=np.random.rand(128)) for i in range(1000)]
db.index(inputs=DocList[ToyDoc](doc_list))

# 执行搜索查询
query = ToyDoc(text='query', embedding=np.random.rand(128))
results = db.search(inputs=DocList[ToyDoc]([query]), limit=10)

# 打印匹配结果
for m in results[0].matches:
  print(m)

将VectorDB作为服务使用

VectorDB支持作为服务运行,支持gRPC、HTTP和Websocket通信协议。

服务器端:

with db.serve(protocol='grpc', port=12345, replicas=1, shards=1) as service:
   service.block()

客户端:

from vectordb import Client

client = Client[ToyDoc](address='grpc://0.0.0.0:12345')

results = client.search(inputs=DocList[ToyDoc]([query]), limit=10)