bert-base-cased

bert-base-cased

使用预训练双向Transformer模型提升语言理解能力

BERT是一种通过自监督学习预训练的双向Transformer模型,旨在改善英语语言理解。基于大型语料库的预训练,使其能学习句子的双向表示,适用于序列分类、标记分类和问答任务。通过Masked Language Modeling和Next Sentence Prediction目标进行预训练,BERT在各类任务中展现出卓越表现,但注意选择合适的训练数据以避免潜在偏见。

掩码语言建模开源项目自监督学习Huggingface模型BERT句子分类预训练Github

项目介绍:BERT base model (cased)

BERT base模型是一种预训练的英语语言模型,利用“掩码语言建模”(Masked Language Modeling)目标进行训练。该模型首次在一篇论文中介绍,并在GitHub上发布。它是一个大小写敏感的模型,也就是说它能区分“english”和“English”。

模型描述

BERT是一种基于Transformer架构的模型,通过自监督的方式在大量英语语料上进行预训练。自监督学习意味着在预训练过程中,只使用原始文本数据而不需要人工标注。这种方式允许BERT利用大量公开可用的数据来生成输入和标签。具体来说,BERT使用两个目标来进行预训练:

  • 掩码语言建模(MLM):在一个句子中,模型随机掩盖15%的单词,然后通过整个掩盖的句子来预测这些单词。与传统的递归神经网络(RNN)不同,后者通常一个接一个地处理单词。模型通过这种方式学习句子的双向表示。

  • 下一个句子预测(NSP):预训练中,模型将两个句子连接起来作为输入。有时这些句子在原始文本中相邻,有时则不是。模型需要预测这两个句子是否是相邻的。

通过这种方式,BERT能学习到英语语言的内部表示,这可以用于提取对后续任务有用的特征。比如,如果用户有一个标注好的句子数据集,可以利用BERT模型生成的特征来训练一个标准的分类器。

使用用途及限制

用户可以直接使用这个模型进行掩码语言建模或下一个句子预测,但更主要的是将其微调用于某个特定的任务。用户可以浏览模型中心查看经过微调的版本以满足特定任务的需求。

需要注意的是,这个模型主要针对那些需要利用整个句子(可能已被掩盖)进行决策的任务,如序列分类、标记分类或问答任务。对于文本生成任务,建议使用类似GPT2的模型。

如何使用

对于掩码语言建模任务,用户可以直接使用以下Python代码:

from transformers import pipeline unmasker = pipeline('fill-mask', model='bert-base-cased') unmasker("Hello I'm a [MASK] model.")

对于PyTorch,提取文本的特征可以使用:

from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from_pretrained('bert-base-cased') model = BertModel.from_pretrained("bert-base-cased") text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='pt') output = model(**encoded_input)

对于TensorFlow,使用方式如下:

from transformers import BertTokenizer, TFBertModel tokenizer = BertTokenizer.from_pretrained('bert-base-cased') model = TFBertModel.from_pretrained("bert-base-cased") text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='tf') output = model(encoded_input)

限制和偏见

即使BERT使用的训练数据可以被认为是相对中立的,模型可能仍存在偏见。如在性别角色方面的偏见,这种偏见也可能影响模型的微调版本。

训练数据

BERT模型在BookCorpus和英文维基百科上进行预训练。BookCorpus包含11,038本未出版的书籍,维基百科部分则不包括列表、表格和标题内容。

训练程序

预处理

文本的标记化使用了WordPiece方法,词汇表大小为30,000。输入形式如下:

[CLS] Sentence A [SEP] Sentence B [SEP]

句子A和句子B有50%的概率为原始语料中的连续句子,其他情况下则是随机选择的句子。

预训练

模型使用4个云TPU在Pod配置下进行训练(共16个TPU芯片),进行了100万步训练,批量大小为256。序列长度在90%的步骤中限制为128个标记,其余10%为512个标记。优化器是Adam,学习率为1e-4。

评估结果

在微调后,BERT模型在多个任务上表现出色。针对具体任务的测试结果如下:

  • MNLI-匹配/不匹配:84.6/83.4
  • QQP:71.2
  • QNLI:90.5
  • SST-2:93.5
  • CoLA:52.1
  • STS-B:85.8
  • MRPC:88.9
  • RTE:66.4
  • 平均值:79.6

通过这种详细的介绍,希望帮助更多用户了解BERT base模型,及其可能的应用范围与注意事项。

编辑推荐精选

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

下拉加载更多