roberta-large

roberta-large

大型英语预训练模型,适合多种任务优化

RoBERTa是一个自监督学习的变压器模型,通过掩码语言建模(MLM)目标优化英语语言的表示。主要用于细调下游任务,如序列和标记分类以及问答。此模型预训练于包括BookCorpus和Wikipedia在内的五个大型语料库,使用BPE分词法和动态掩码训练,实现双向句子表示,并在GLUE测试中表现优异,适合在PyTorch和TensorFlow中应用。

语言模型模型遮蔽语言建模GithubRoBERTaTransformer模型预训练模型Huggingface开源项目

RoBERTa大型模型简介

RoBERTa是一个基于英语语言的大型预训练模型,它使用了一种称为掩码语言模型(MLM)的目标进行训练。RoBERTa首次是在A Robustly Optimized BERT Pretraining Approach这篇论文中介绍,并发布在这个代码库中。这个模型对大小写敏感,例如它会区分“english”和“English”。

模型描述

RoBERTa是一种变压器模型,它通过自监督的方式在大规模的英语语料库上进行预训练。自监督学习意味着该模型只在未经人工标注的原始文本上训练,通过自动化过程生成输入和标签。这使得RoBERTa能够利用大量的公开数据进行训练。

该模型具体使用了掩码语言模型(MLM)的目标进行预训练。这个过程是,给定一个句子,模型随机地掩盖输入中15%的单词,然后让模型预测这些被掩盖的单词。与传统的递归神经网络(RNN)或类似GPT的自回归模型不同,RoBERTa可以学习句子的双向表示。

这种预训练方式使得模型可以学习到英语语言的内部表示,可以用于下游任务中的特征提取:例如,如果你有一个标注句子的数据集,可以使用BERT模型生成的特征作为输入来训练一个标准的分类器。

预期用途与限制

虽然可以使用RoBERTa模型进行掩码语言建模,但它主要是为了在下游任务中进行微调而设计的。用户可以访问模型中心查看各种任务的微调版本。

请注意,该模型主要针对使用整个(可能被掩盖的)句子作出决策的任务进行微调,例如序列分类、标记分类或问答。对于文本生成类任务,建议使用类似GPT2的模型。

如何使用

可以通过以下方式直接使用RoBERTa模型进行掩码语言建模:

from transformers import pipeline unmasker = pipeline('fill-mask', model='roberta-large') unmasker("Hello I'm a <mask> model.")

此外,也可以使用PyTorch或TensorFlow获取特定文本的特征:

PyTorch示例:

from transformers import RobertaTokenizer, RobertaModel tokenizer = RobertaTokenizer.from_pretrained('roberta-large') model = RobertaModel.from_pretrained('roberta-large') text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='pt') output = model(**encoded_input)

TensorFlow示例:

from transformers import RobertaTokenizer, TFRobertaModel tokenizer = RobertaTokenizer.from_pretrained('roberta-large') model = TFRobertaModel.from_pretrained('roberta-large') text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='tf') output = model(encoded_input)

限制与偏见

RoBERTa的训练数据包含了大量未经筛选的互联网内容,这导致模型可能产生偏见的预测。例如:

from transformers import pipeline unmasker = pipeline('fill-mask', model='roberta-large') unmasker("The man worked as a <mask>.") unmasker("The woman worked as a <mask>.")

这些偏见同样会影响到该模型的所有微调版本。

训练数据

RoBERTa模型在五个数据集上进行了预训练:

  • BookCorpus:一个包含11,038本未出版书籍的语料库
  • 英文维基百科(不包括列表、表格和标题)
  • CC-News:包含了从2016年9月至2019年2月期间抓取的6300万篇英文新闻文章的数据集
  • OpenWebText:GPT-2使用的WebText数据集的开源重建版本
  • Stories:从CommonCrawl数据中提取出与Winograd模式相符的故事风格数据集

这些数据集共计160GB文本。

训练过程

文本使用字节版本的字节对编码(BPE)和50,000的词汇量进行标记。模型的输入为512个连续的标记,这些标记可以跨越文档。新文档的开始和结束分别用<s></s>标记。

对每个句子的掩码过程如下:

  • 掩盖15%的标记。
  • 在80%的情况下,掩盖的标记会被替换为<mask>
  • 在10%的情况下,掩盖的标记会被一个随机不同的标记代替。
  • 剩下的10%情况下,掩盖的标记保持不变。

不同于BERT,RoBERTa在预训练期间动态地进行掩盖(例如,在每个周期变化,而不是固定的)。

预训练

RoBERTa模型在1024个V100 GPU上以8000的批量大小和512的序列长度进行了500K步训练。优化器使用的是Adam,学习率为4e-4,\(\beta_{1} = 0.9\),\(\beta_{2} = 0.98\),\(\epsilon = 1e-6\),权重衰减为0.01,学习步骤在30,000步之前逐渐升温,并在之后线性衰减。

评估结果

当在下游任务上进行微调时,RoBERTa模型取得了以下结果:

Glue测试结果:

任务MNLIQQPQNLISST-2CoLASTS-BMRPCRTE
90.292.294.796.468.096.490.986.6

总之,RoBERTa模型表现出了优秀的性能,并且在下游任务中具有较强的适应能力。然而,由于其训练数据来源的多样性和可能的偏见,在实际应用中需谨慎对待。

编辑推荐精选

豆包

豆包

字节跳动旗下 AI 智能助手

字节跳动旗下 AI 智能助手

GPT Plus|Pro充值

GPT Plus|Pro充值

GPT充值

支持 ChatGPT Plus / Pro 充值服务,支付便捷,自动发货,售后可查。

GPT Image 2中文站

GPT Image 2中文站

AI 图片生成平台

GPT Image 2 是面向用户的 AI 图片生成平台,支持文生图、图生图及多模型创意工作流。

Vecbase

Vecbase

你的AI Agent团队

Vecbase 是专为 AI 团队打造的智能工作空间,将数据管理、模型协作与知识沉淀整合于一处。算法、产品与业务在同一平台无缝协同,让从数据到 AI 应用的落地更快一步。

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

下拉加载更多