byt5-xl

byt5-xl项目介绍

byt5-xl是一个基于字节级处理的多语言预训练模型,它是Google T5模型的无标记器版本。这个项目旨在为自然语言处理任务提供一种更加灵活和鲁棒的解决方案。

模型架构

byt5-xl的架构基本遵循MT5模型,采用标准的Transformer结构,但进行了一些针对字节级处理的微小修改。与传统的基于token的模型不同,byt5-xl直接在原始UTF-8字节上进行操作,无需使用分词器。

预训练过程

该模型仅在mC4多语言数据集上进行了预训练,没有使用任何监督训练数据。预训练过程中使用了平均20个UTF-8字符的跨度掩码策略。由于缺乏特定任务的训练,byt5-xl需要在下游任务上进行微调才能发挥其性能。

主要优势

多语言支持:可以直接处理任何语言的文本,无需额外的语言适配。
鲁棒性强:对噪声数据具有更好的处理能力。
技术简化:消除了复杂的文本预处理流程,减少了技术债务。

性能表现

在处理噪声文本数据方面,byt5-xl表现出色。例如,在TweetQA任务上,byt5-xl显著优于mt5-xl模型。

使用方法

byt5-xl可以直接处理原始UTF-8字节,无需分词器。以下是一个简单的使用示例:

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-xl')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3

loss = model(input_ids, labels=labels).loss

批处理和训练

对于批量推理和训练,建议使用分词器类进行填充:

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-xl')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-xl')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss