bert-base-greek-uncased-v1

bert-base-greek-uncased-v1项目介绍

项目背景

bert-base-greek-uncased-v1是“希腊版BERT”语言模型，该项目旨在通过自然语言处理技术促进希腊语言应用的发展。BERT模型由Google推出，是一种预训练语言模型，能够理解文本中的上下文语义。“希腊版BERT”则是在希腊语数据集上进行预训练的版本，专门用于处理希腊语文本。

预训练语料库

bert-base-greek-uncased-v1的预训练阶段使用了多种希腊语数据集：

希腊版维基百科
欧洲议会会议记录的希腊语部分
OSCAR清洗版的Common Crawl中希腊语部分

未来的版本将包含：

希腊国家出版办公室发布的希腊立法全文库
欧盟立法中的希腊语翻译部分

预训练细节

项目使用Google BERT官方代码进行训练，并通过Hugging Face的转换脚本将TensorFlow的检查点和词汇表转换成PyTorch和TF2可用的格式。

模型共12层，隐藏层大小为768，具有12个注意力头，参数数量为1.1亿。
采用与英语版BERT相同的训练设置：训练步数为1百万步，批次包含256个序列，每个序列长度为512，初始学习率为1e-4。
主要使用一台由TensorFlow Research Cloud免费提供的Google Cloud TPU v3-8进行训练。

使用要求

bert-base-greek-uncased-v1已在Hugging Face的Transformers库中发布，使用该模型需要安装Transformers库以及PyTorch或TensorFlow 2。

pip install transformers
pip install torch  # 或者 tensorflow

文本预处理

在使用bert-base-greek-uncased-v1进行预测前，需将文本处理为小写并去除希腊语变音符号。以下是实现该功能的示例代码：

import unicodedata

def strip_accents_and_lowercase(s):
   return ''.join(c for c in unicodedata.normalize('NFD', s)
                  if unicodedata.category(c) != 'Mn').lower()

accented_string = "Αυτή είναι η Ελληνική έκδοση του BERT."
unaccented_string = strip_accents_and_lowercase(accented_string)

print(unaccented_string)  # 输出：'αυτη ειναι η ελληνικη εκδοση του bert.'

加载预训练模型

以下是如何加载模型和词汇表的示例代码：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-greek-uncased-v1")
model = AutoModel.from_pretrained("nlpaueb/bert-base-greek-uncased-v1")

作为语言模型的应用

以下示例展示如何使用模型在希腊语文本中完成缺失词填充任务：

import torch
from transformers import *

# 加载模型和词汇表
tokenizer_greek = AutoTokenizer.from_pretrained('nlpaueb/bert-base-greek-uncased-v1')
lm_model_greek = AutoModelWithLMHead.from_pretrained('nlpaueb/bert-base-greek-uncased-v1')

# 示例1
text_1 = 'O ποιητής έγραψε ένα [MASK] .'
input_ids = tokenizer_greek.encode(text_1)
outputs = lm_model_greek(torch.tensor([input_ids]))[0]
print(tokenizer_greek.convert_ids_to_tokens(outputs[0, 5].max(0)[1].item()))  # 输出最可能的结果：'song'