kcbert-base

kcbert-base项目介绍

项目概述

kcbert-base是一个专为处理韩语评论而设计的预训练BERT模型。与大多数基于经过良好清理的文本（如维基百科和新闻文章）的韩语BERT模型不同，kcbert-base专注于处理由用户生成的、通常未经良好组织的评论数据。这些数据包含大量的口语、俚语、新词以及拼写错误等。为了适应这种数据特性，kcbert-base利用从Naver新闻中收集的评论和回复进行训练，为各类自然语言处理任务提供支持。

项目进展

在项目的各个阶段，kcbert-base进行了不断的更新和改进：

2020年8月22日：首次公开预训练数据集。
2020年9月8日：通过GitHub发布了分割压缩的学习数据。
2020年9月11日：提供了使用Google Colab和TPU学习kcbert的教程。
2020年12月4日：随着Huggingface Transformers更新至v4.0.0，部分教程代码进行了调整。
2021年3月14日：kcbert论文引用说明和微调性能分数被添加。
2021年4月7日：发布了更先进的KcELECTRA模型，它在所有任务中都表现得比kcbert更好。

性能表现

在多个韩语自然语言处理任务中，kcbert表现出强大的能力。以下是性能测试结果，该模型在一些任务上与其他已知模型的对比结果：

模型	NSMC (Acc)	Naver NER (F1)	PAWS (Acc)	KorNLI (Acc)	KorSTS (Spearman)	Question Pair (Acc)	KorQuaD (Dev) (EM/F1)
kcbert-base	89.62	84.34	66.95	74.85	75.57	93.93	60.25 / 84.39
kcbert-large	90.68	85.53	70.15	76.99	77.49	94.06	62.16 / 86.64

该模型在多个任务上表现良好，尤其是在NSMC和KorQuaD任务上的表现显著优于传统模型。

如何使用kcbert

利用Huggingface Transformers库，用户可以轻松地调用并使用kcbert模型，无需下载额外的文件。需要的基本环境如下：

pytorch <= 1.8.0
transformers >= 3.0.1
emoji >= 0.6.0
soynlp >= 0.0.493

基本使用可以如下进行：

from transformers import AutoTokenizer, AutoModelWithLMHead

# Base Model
tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-base")
model = AutoModelWithLMHead.from_pretrained("beomi/kcbert-base")

# Large Model
tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-large")
model = AutoModelWithLMHead.from_pretrained("beomi/kcbert-large")