text2vec-base-chinese-paraphrase

text2vec-base-chinese-paraphrase项目介绍

项目概述

text2vec-base-chinese-paraphrase是一个基于CoSENT（Cosine Sentence）方法训练的中文语义匹配模型。该模型能够将句子映射到768维的密集向量空间，可用于句子嵌入、文本匹配或语义搜索等任务。这个模型是由shibing624开发的text2vec项目的一部分，旨在提供高质量的中文文本向量化解决方案。

模型特点

基础模型：该模型基于nghuyong/ernie-3.0-base-zh进行微调。
训练数据集：使用了精心挑选的中文STS数据集。
最大序列长度：256。
句子嵌入维度：768。
训练轮次：5个epoch。

性能评估

在多个中文自然语言推理（NLI）测试集上，text2vec-base-chinese-paraphrase模型展现出了优异的性能。在ATEC、BQ、LCQMC、PAWSX、STS-B、SOHU-dd和SOHU-dc等测试集上，该模型的平均Spearman相关系数达到了63.08，这是目前公开的中文语义匹配模型中的最佳表现。

使用方法

用户可以通过多种方式使用这个模型：

使用text2vec库：

安装：pip install -U text2vec

使用示例：

from text2vec import SentenceModel
model = SentenceModel('shibing624/text2vec-base-chinese-paraphrase')
embeddings = model.encode(['如何更换花呗绑定银行卡', '花呗更改绑定银行卡'])

使用HuggingFace Transformers库：
- 安装：pip install transformers
- 使用示例包括加载模型、对输入进行分词、计算token嵌入，并进行平均池化操作。

使用sentence-transformers库：

安装：pip install -U sentence-transformers

使用示例：

from sentence_transformers import SentenceTransformer
m = SentenceTransformer("shibing624/text2vec-base-chinese-paraphrase")
sentence_embeddings = m.encode(['如何更换花呗绑定银行卡', '花呗更改绑定银行卡'])