bert-base-swedish-cased

项目介绍：bert-base-swedish-cased

项目背景

Swedish BERT Models项目由瑞典国家图书馆的KBLab发布，致力于提供高质量的瑞典文本语言模型。该项目基于BERT和ALBERT算法，旨在通过丰富的文本数据进行训练，为瑞典语的自然语言处理提供有力支持。这些模型利用了来自多种来源的约15-20GB的文本数据，包括书籍、新闻、政府出版物、瑞典维基百科以及网络论坛，覆盖近200M句子和3000M词。

模型介绍

KBLab发布了三种预训练语言模型：

bert-base-swedish-cased：这是标准版的瑞典语BERT模型，使用与谷歌最初发布的BERT模型相同的超参数进行训练。
bert-base-swedish-cased-ner：这是一个实验性的BERT模型，专门针对命名实体识别（NER）进行了微调，使用了SUC 3.0数据集。
albert-base-swedish-cased-alpha：这是KBLab首次为瑞典语推出的ALBERT模型，目前处于测试阶段。

所有模型均是大小写敏感的，并采用了整词掩码技术进行训练。

模型文件

为方便使用，项目提供了如下文件资源：

bert-base-swedish-cased：包括配置文件、词汇表和PyTorch模型文件。
bert-base-swedish-cased-ner：包括配置文件、词汇表和PyTorch模型文件。
albert-base-swedish-cased-alpha：包括配置文件、句子片段模型和PyTorch模型文件。

TensorFlow模型权重将于近期发布。

使用说明

要运行模型示例，用户需要安装Huggingface Transformers 2.4.1及以上版本和Pytorch 1.3.1及以上版本。对于Transformers 2.4.0以下版本，需要手动实例化tokenizer，并设置do_lower_case为False以及keep_accents为True（适用于ALBERT模型）。

环境配置步骤

# 克隆项目仓库
git clone https://github.com/Kungbib/swedish-bert-models
cd swedish-bert-models

# 创建Python虚拟环境
python3 -m venv venv
source venv/bin/activate

# 更新pip并安装必要依赖
pip install --upgrade pip
pip install -r requirements.txt

BERT基础模型的使用

通过Huggingface Transformers包可以很方便地在Python中加载模型：

from transformers import AutoModel, AutoTokenizer

tok = AutoTokenizer.from_pretrained('KB/bert-base-swedish-cased')
model = AutoModel.from_pretrained('KB/bert-base-swedish-cased')

BERT命名实体识别模型的使用

该模型在SUC 3.0数据集基础上进行了微调，通过Huggingface的pipeline可以轻松加载和使用：

from transformers import pipeline

nlp = pipeline('ner', model='KB/bert-base-swedish-cased-ner', tokenizer='KB/bert-base-swedish-cased-ner')

nlp('Idag släpper KB tre språkmodeller.')

这段代码会输出识别到的实体及其类别，例如时间、个人名字、地点、事件和组织等。

ALBERT基础模型的使用

同样可以利用Huggingface Transformers包加载ALBERT模型：

from transformers import AutoModel, AutoTokenizer

tok = AutoTokenizer.from_pretrained('KB/albert-base-swedish-cased-alpha')
model = AutoModel.from_pretrained('KB/albert-base-swedish-cased-alpha')