为荷兰语自然语言处理提供强大基础的预训练模型
RobBERT是基于RoBERTa架构的荷兰语预训练语言模型,在多项荷兰语自然语言处理任务中展现出卓越性能。该模型在39GB荷兰语语料库上进行预训练,可用于情感分析、命名实体识别和词性标注等任务,尤其在小规模数据集上表现突出。RobBERT为荷兰语自然语言处理的研究与应用奠定了坚实基础。
RobBERT是最先进的荷兰语BERT模型。 它是一个大型预训练的通用荷兰语言模型,可以在给定数据集上进行微调,以执行任何文本分类、回归或标记标注任务。 因此,它已被许多研究人员和从业者成功用于在广泛的荷兰语自然语言处理任务中实现最先进的性能,包括:
并在以下任务中取得了出色的、接近最先进的结果:
* 注意,一些评估使用的是RobBERT-v1,而第二个改进版RobBERT-v2在我们测试的所有方面都优于第一个模型
(还请注意,这个列表并不详尽。如果您在应用中使用了RobBERT,我们很乐意了解!请发邮件给我们,或者通过发送包含编辑内容的拉取请求自行将其添加到此列表中!)
要使用HuggingFace transformers的RobBERT模型,请使用名称pdelobelle/robbert-v2-dutch-base
。
有关RobBERT的更深入信息可以在我们的博客文章和论文中找到。
RobBERT使用RoBERTa架构和预训练方法,但采用了荷兰语分词器和训练数据。RoBERTa是经过稳健优化的英语BERT模型,使其比原始BERT模型更加强大。鉴于这种相同的架构,RobBERT可以轻松地使用用于微调RoBERTa的代码和大多数用于BERT模型的代码进行微调和推理,例如HuggingFace Transformers库提供的代码。
RobBERT可以通过两种不同的方式轻松使用,即使用Fairseq RoBERTa代码或使用HuggingFace Transformers
默认情况下,RobBERT带有训练中使用的掩码语言模型头。这可以作为一种零样本方式来填充句子中的掩码。您可以在Huggingface的RobBERT托管推理API上免费测试。您还可以通过使用任何HuggingFace的RoBERTa运行器、他们的微调笔记本(将模型名称更改为pdelobelle/robbert-v2-dutch-base
)或使用原始的fairseq RoBERTa训练方案来为您自己的任务创建新的预测头。
您可以使用🤗 Transformers轻松下载RobBERT v2。 使用以下代码下载基础模型并自行微调,或使用我们的一个微调模型(在我们的项目网站上有文档)。
from transformers import RobertaTokenizer, RobertaForSequenceClassification tokenizer = RobertaTokenizer.from_pretrained("pdelobelle/robbert-v2-dutch-base") model = RobertaForSequenceClassification.from_pretrained("pdelobelle/robbert-v2-dutch-base")
从transformers v2.4.0
开始(或从源代码安装),您可以使用AutoTokenizer和AutoModel。
然后您可以使用大多数HuggingFace基于BERT的笔记本来在您的荷兰语数据集类型上微调RobBERT。
或者,您也可以使用[RoBERTa架构代码](https://github.com/iPieter/RobBERT/blob/master/(https://github.com/pytorch/fairseq/tree/master/examples/roberta)来使用RobBERT。
您可以在这里下载RobBERT v2的Fairseq模型:(RobBERT-base, 1.5 GB)。
使用RobBERT的model.pt
,这种方法允许您使用RoBERTa的所有其他功能。
所有实验在我们的论文中有更详细的描述,代码在我们的GitHub仓库中。