SONAR_200_text_encoder

SONAR_200_text_encoder项目介绍

SONAR_200_text_encoder是一个多语言文本编码器项目，这个项目旨在将多种语言文本编码转换成向量化表示，使语言处理和分析变得更加高效和便捷。

项目背景

该项目是对多语言SONAR文本编码器的迁移工作。SONAR文本编码器最初在fairseq2平台上实现，而SONAR_200_text_encoder则将其迁移到了transformers框架中。这使得使用者可以更方便地在transformers生态系统中使用SONAR编码器的功能。

语言支持

SONAR_200_text_encoder能够支持202种语言，与NLLB-200提供的支持语言数量一致。这些语言涵盖广泛，包含了各种文字形式，如阿拉伯字母、拉丁字母、汉字等。对于每种语言，编码器能够将其转化为向量表示，帮助开发者进行有效的文本比较和处理。

使用方法

该编码器的使用方法简单直观。用户只需安装相关的Python包，然后加载编码器和相应的分词器。下面是一个基本的嵌入计算示例：

# 安装所需库
!pip install transformers sentencepiece -q

import torch
from transformers import AutoTokenizer
from transformers.models.m2m_100.modeling_m2m_100 import M2M100Encoder

# 加载编码器和分词器
model_name = "cointegrated/SONAR_200_text_encoder"
encoder = M2M100Encoder.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 定义编码函数
def encode_mean_pool(texts, tokenizer, encoder, lang='eng_Latn', norm=False):
    tokenizer.src_lang = lang
    with torch.inference_mode():
        batch = tokenizer(texts, return_tensors='pt', padding=True)
        seq_embs = encoder(**batch).last_hidden_state
        mask = batch.attention_mask
        mean_emb = (seq_embs * mask.unsqueeze(-1)).sum(1) / mask.unsqueeze(-1).sum(1)
        if norm:
            mean_emb = torch.nn.functional.normalize(mean_emb)
    return mean_emb

# 示例应用
sentences = ['My name is SONAR.', 'I can embed the sentences into vectorial space.']
embs = encode_mean_pool(sentences, tokenizer, encoder, lang="eng_Latn")
print(embs.shape)  # 输出: torch.Size([2, 1024])
print(embs)