japanese-roberta-base

japanese-roberta-base项目介绍

Japanese RoBERTa Base项目由日本人工智能公司rinna Co., Ltd.开发，这是一个专用于日语的RoBERTa基础模型。RoBERTa是一种基于Transformer架构的先进自然语言处理（NLP）模型，专注于提高语言任务的表现。该模型主要用于处理日语的掩码语言模型任务，使其能够预测在句子中被掩盖部分的单词或短语。项目的源代码可以在GitHub的rinnakk/japanese-pretrained-models库中找到。

模型加载

要使用Japanese RoBERTa Base模型，可以通过以下Python代码进行加载：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-roberta-base", use_fast=False)
tokenizer.do_lower_case = True  # 由于一些加载错误需要设置

model = AutoModelForMaskedLM.from_pretrained("rinna/japanese-roberta-base")

使用方法

使用`[CLS]`标记

预测被掩盖的单词时，确保在句子前添加[CLS]标记，这是在模型训练中就使用的方法，这样能帮助模型正确编码句子。

在分词后使用`[MASK]`

在输入字符串中直接输入[MASK]和在分词后替换为[MASK]会产生不同的结果。模型在预训练时是在分词后进行遮蔽操作，所以推荐在分词后使用[MASK]的方法。不过，Huggingface的Inference API仅支持在输入字符串中直接使用[MASK]。

显式提供`position_ids`

对于RoBERTa模型，如果没有提供position_ids，Huggingface会自动构建它，但可能会从错误的位置开始。因此需要用户手动构建，并从位置ID 0开始。

使用示例

以下示例展示了如何使用提供的模型进行掩盖语言模型的预测：

# 原始文本
text = "4年に1度オリンピックは開かれる。"

# 添加 [CLS] 前缀
text = "[CLS]" + text

# 分词
tokens = tokenizer.tokenize(text)

# 掩盖一个单词
masked_idx = 5
tokens[masked_idx] = tokenizer.mask_token

# 转换为ID
token_ids = tokenizer.convert_tokens_to_ids(tokens)

# 转换为张量
import torch
token_tensor = torch.LongTensor([token_ids])

# 显式提供位置ids
position_ids = list(range(0, token_tensor.size(1)))
position_id_tensor = torch.LongTensor([position_ids])

# 预测掩盖单词的前10个可能结果
with torch.no_grad():
    outputs = model(input_ids=token_tensor, position_ids=position_id_tensor)
    predictions = outputs[0][0, masked_idx].topk(10)

for i, index_t in enumerate(predictions.indices):
    index = index_t.item()
    token = tokenizer.convert_ids_to_tokens([index])[0]
    print(i, token)