all-mpnet-base-v2

all-mpnet-base-v2项目介绍

项目概述

all-mpnet-base-v2是一个基于sentence-transformers框架的句子嵌入模型。它能够将句子和段落映射到768维的密集向量空间中，可用于聚类或语义搜索等任务。这个模型是在超过10亿对句子的大规模数据集上进行训练的，旨在成为最先进的句子嵌入模型。

模型特点

基于预训练的microsoft/mpnet-base模型进行微调
使用对比学习目标在大规模句子对数据集上训练
输出768维的句子向量
适用于信息检索、聚类和句子相似度计算等任务
默认情况下，可处理长度不超过384个词元的输入文本

使用方法

使用all-mpnet-base-v2模型非常简单，用户可以通过sentence-transformers库或Hugging Face Transformers库来调用模型。以下是两种使用方式的示例代码：

使用sentence-transformers库：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

使用Hugging Face Transformers库：

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

# 定义平均池化函数
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

sentences = ['This is an example sentence', 'Each sentence is converted']

tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-mpnet-base-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-mpnet-base-v2')

encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output = model(**encoded_input)

sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)