bert-base-swedish-cased-ner

bert-base-swedish-cased-ner项目介绍

bert-base-swedish-cased-ner是由瑞典国家图书馆/KBLab发布的一个基于BERT的瑞典语命名实体识别(NER)模型。这个模型是在bert-base-swedish-cased的基础上，通过在SUC 3.0数据集上进行微调得到的。它是为瑞典语文本的命名实体识别任务而专门设计的。

模型特点

预训练数据：该模型是在约15-20GB的瑞典语文本上预训练的，包括书籍、新闻、政府出版物、瑞典维基百科和互联网论坛等多种来源，共计约2亿个句子，30亿个标记。
大小写敏感：这是一个大小写敏感(cased)的模型，意味着它能够区分大小写字母。
全词屏蔽：训练过程中使用了全词屏蔽(whole word masking)技术，这有助于提高模型对完整词语的理解。
专门用途：该模型经过微调，专门用于瑞典语的命名实体识别任务。

使用方法

使用这个模型非常简单，研究者可以通过Hugging Face的Transformers库轻松加载和使用它。以下是一个简单的使用示例：

from transformers import pipeline

nlp = pipeline('ner', model='KB/bert-base-swedish-cased-ner', tokenizer='KB/bert-base-swedish-cased-ner')

result = nlp('Idag släpper KB tre språkmodeller.')
print(result)