umberto-wikipedia-uncased-v1

项目介绍：UmBERTo Wikipedia Uncased v1

UmBERTo Wikipedia Uncased v1是一个基于Roberta的语言模型，专注于意大利语的大型语料库训练。该项目使用了两种创新的方法：SentencePiece和整词掩码，旨在提升模型的语言理解和生成能力。感兴趣的读者可以在Hugging Face官网上找到更多的信息。

数据集

这个模型主要是在从Wikipedia-ITA提取的小型语料库（大约7GB）上进行训练的。该语料库包含丰富的意大利语材料，用于支持模型在意大利语环境中的应用。

预训练模型

下表概述了UmBERTo Wikipedia Uncased v1模型的各种特性：

模型	整词掩码	大小写敏感	分词器	词汇表大小	训练次数	下载链接
`umberto-wikipedia-uncased-v1`	是	是	SPM	32K	100k	下载

这个模型应用了SentencePiece技术和整词掩码，旨在提高对上下文的理解能力。

下游任务

UmBERTo Wikipedia Uncased模型在命名实体识别（NER）和词性标注（POS）等任务中表现卓越。以下是相关任务的性能评估：

命名实体识别（NER）

数据集	F1得分	精确率	召回率	准确率
ICAB-EvalITA07	86.240	85.939	86.544	98.534
WikiNER-ITA	90.483	90.328	90.638	98.661

词性标注（POS）

数据集	F1得分	精确率	召回率	准确率
UD_Italian-ISDT	98.563	98.508	98.618	98.717
UD_Italian-ParTUT	97.810	97.835	97.784	98.060

使用方法

利用AutoModel和Autotokenizer加载UmBERTo Wikipedia Uncased模型非常简便。以下是代码示例：

import torch
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("Musixmatch/umberto-wikipedia-uncased-v1")
umberto = AutoModel.from_pretrained("Musixmatch/umberto-wikipedia-uncased-v1")

encoded_input = tokenizer.encode("Umberto Eco è stato un grande scrittore")
input_ids = torch.tensor(encoded_input).unsqueeze(0)  # Batch size 1
outputs = umberto(input_ids)
last_hidden_states = outputs[0]  # The last hidden-state is the first element of the output

预测掩码词语的代码示例：

from transformers import pipeline

fill_mask = pipeline(
	"fill-mask",
	model="Musixmatch/umberto-wikipedia-uncased-v1",
	tokenizer="Musixmatch/umberto-wikipedia-uncased-v1"
)

result = fill_mask("Umberto Eco è <mask> un grande scrittore")

最后

UmBERTo Wikipedia Uncased v1是由Musixmatch AI团队开发的智能语言模型。其精确的算法和丰富的数据集支持使其在意大利语环境中表现优异。用户可以通过Musixmatch的Github页面获取更多关于机器学习和人工智能的信息，或在推特上关注musixmatch进行实时互动。

项目创建者包括Loreto Parisi, Simone Francia和Paolo Magnani，欢迎通过相关邮箱进行联系和咨询。