umt5-small

umt5-small项目介绍

项目概述

umT5-small项目是一个多语言预训练模型，由Google的研究团队开发。该模型基于一版更新的mC4语料库进行预训练，涵盖了107种语言。该项目旨在通过高效的多语言模型为下游任务提供支持，但在实际应用前需要进行微调。

支持语言

umT5-small模型是一个多语言模型，能够支持以下107种语言：南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、齐切瓦语、中文、科西嘉语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印度尼西亚语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、北马其顿语、马尔加什语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、绍纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、南索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里西亚语、科萨语、意第绪语、约鲁巴语和祖鲁语。

预训练语料库

umT5-small项目使用的是mC4 (Multilingual C4) 语料库，这是一个包含107种语言的多语种语料，涵盖了约29万亿字符的文本数据。这为模型提供了丰富的语料资源以提升其语言理解能力。

关键技术与创新

umT5-small在模型预训练中采用了一种名为UniMax的新采样方法。传统的大规模多语言模型通常使用启发式的温度采样法来平衡不同语言的训练分布，这种方法存在一定的语言过拟合问题。而UniMax通过明确限制每种语言语料库的重复次数，以在头部语言中提供更均匀的覆盖，同时减轻在尾部语言中的过拟合现象。研究表明，UniMax在多语言基准测试中表现优于标准的温度采样法，并且随着模型规模的扩大，其优势更加明显。