bert-fa-base-uncased

bert-fa-base-uncased项目介绍

概览

bert-fa-base-uncased是一个专为波斯语（Persian）设计的单语语言模型，基于谷歌的BERT架构。该项目以提升波斯语理解能力为目标，并致力于将ParsBERT的应用范围扩展到不同领域。

项目背景

项目人员重建了词汇表，并在新的波斯语语料库上微调了ParsBERT v1.1，推出了最新的ParsBERT v2.0版本。该模型在大量涵盖多种写作风格和主题的波斯语文档上进行预训练，包括科学、小说和新闻等，语料库包含超过390万篇文档、7300万句子和13亿个词语。

可以查看ParsBERT的论文以及项目主页获取更多信息。

主要用途与限制

bert-fa-base-uncased的原始模型可用于掩码语言模型或下一句预测，但更适合在下游任务上进行微调。在HuggingFace的模型中心可以找到针对特定任务微调的版本。

如何使用

在TensorFlow 2.0中使用

要在TensorFlow 2.0中使用bert-fa-base-uncased，首先需要导入相关库，并加载预训练的配置、分词器和模型。以下是基本的代码示例：

from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

在PyTorch中使用

在PyTorch中使用bert-fa-base-uncased同样只需导入相关库并加载模型：

from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")