bert-base-cased

项目介绍：BERT base model (cased)

BERT base模型是一种预训练的英语语言模型，利用“掩码语言建模”（Masked Language Modeling）目标进行训练。该模型首次在一篇论文中介绍，并在GitHub上发布。它是一个大小写敏感的模型，也就是说它能区分“english”和“English”。

模型描述

BERT是一种基于Transformer架构的模型，通过自监督的方式在大量英语语料上进行预训练。自监督学习意味着在预训练过程中，只使用原始文本数据而不需要人工标注。这种方式允许BERT利用大量公开可用的数据来生成输入和标签。具体来说，BERT使用两个目标来进行预训练：

掩码语言建模（MLM）：在一个句子中，模型随机掩盖15%的单词，然后通过整个掩盖的句子来预测这些单词。与传统的递归神经网络（RNN）不同，后者通常一个接一个地处理单词。模型通过这种方式学习句子的双向表示。
下一个句子预测（NSP）：预训练中，模型将两个句子连接起来作为输入。有时这些句子在原始文本中相邻，有时则不是。模型需要预测这两个句子是否是相邻的。

通过这种方式，BERT能学习到英语语言的内部表示，这可以用于提取对后续任务有用的特征。比如，如果用户有一个标注好的句子数据集，可以利用BERT模型生成的特征来训练一个标准的分类器。

使用用途及限制

用户可以直接使用这个模型进行掩码语言建模或下一个句子预测，但更主要的是将其微调用于某个特定的任务。用户可以浏览模型中心查看经过微调的版本以满足特定任务的需求。

需要注意的是，这个模型主要针对那些需要利用整个句子（可能已被掩盖）进行决策的任务，如序列分类、标记分类或问答任务。对于文本生成任务，建议使用类似GPT2的模型。

如何使用

对于掩码语言建模任务，用户可以直接使用以下Python代码：

from transformers import pipeline
unmasker = pipeline('fill-mask', model='bert-base-cased')
unmasker("Hello I'm a [MASK] model.")

对于PyTorch，提取文本的特征可以使用：

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = BertModel.from_pretrained("bert-base-cased")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

对于TensorFlow，使用方式如下：

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = TFBertModel.from_pretrained("bert-base-cased")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)