multi-qa-MiniLM-L6-dot-v1

multi-qa-MiniLM-L6-dot-v1项目介绍

multi-qa-MiniLM-L6-dot-v1是一个基于sentence-transformers库开发的模型，它将句子和段落映射为384维的稠密向量空间，专为语义搜索设计。该模型在来自多种来源的2.15亿对（问题，答案）上进行了训练。想要了解语义搜索的朋友可以点击这里：SBERT.net - 语义搜索。

使用方法（sentence-transformers）

如果系统中已安装sentence-transformers，使用这个模型变得非常简单：

pip install -U sentence-transformers

然后您可以这样使用模型：

from sentence_transformers import SentenceTransformer, util

query = "伦敦有多少人居住？"
docs = ["大约900万人住在伦敦", "伦敦以其金融区闻名"]

# 加载模型
model = SentenceTransformer('sentence-transformers/multi-qa-MiniLM-L6-dot-v1')

# 编码查询和文档
query_emb = model.encode(query)
doc_emb = model.encode(docs)

# 计算查询和所有文档的点积分数
scores = util.dot_score(query_emb, doc_emb)[0].cpu().tolist()

# 组合文档和分数
doc_score_pairs = list(zip(docs, scores))

# 依据分数降序排序
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)

# 输出段落和分数
for doc, score in doc_score_pairs:
    print(score, doc)

使用方法（HuggingFace Transformers）

若不使用sentence-transformers，可以通过以下方式使用模型：首先通过transformer模型处理输入，然后在词嵌套上应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch

# CLS Pooling - 从第一个token中提取输出
def cls_pooling(model_output):
    return model_output.last_hidden_state[:,0]

# 编码文本
def encode(texts):
    # 句子分词
    encoded_input = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')

    # 计算token嵌入
    with torch.no_grad():
        model_output = model(**encoded_input, return_dict=True)

    # 执行池化
    embeddings = cls_pooling(model_output)

    return embeddings

# 我们希望对其进行句子嵌入的句子
query = "伦敦有多少人居住？"
docs = ["大约900万人住在伦敦", "伦敦以其金融区闻名"]

# 从HuggingFace Hub中加载模型
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/multi-qa-MiniLM-L6-dot-v1")
model = AutoModel.from_pretrained("sentence-transformers/multi-qa-MiniLM-L6-dot-v1")

# 编码查询和文档
query_emb = encode(query)
doc_emb = encode(docs)

# 计算查询和所有文档的点积分数
scores = torch.mm(query_emb, doc_emb.transpose(0, 1))[0].cpu().tolist()

# 组合文档和分数
doc_score_pairs = list(zip(docs, scores))

# 依据分数降序排序
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)

# 输出段落和分数
for doc, score in doc_score_pairs:
    print(score, doc)