toxic-comment-model

项目介绍：toxic-comment-model

模型描述

toxic-comment-model是一个经过微调的DistilBERT模型，专门用于对网络上的不当评论进行分类。DistilBERT是一种轻量化的BERT（双向编码器表示转换器）模型，通过去掉一些冗余部分，它能够更高效地处理自然语言任务。

使用方法

要使用这个模型，用户只需通过以下代码进行设置：

from transformers import AutoModelForSequenceClassification, AutoTokenizer, TextClassificationPipeline

model_path = "martin-ha/toxic-comment-model"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)

pipeline =  TextClassificationPipeline(model=model, tokenizer=tokenizer)
print(pipeline('This is a test text.'))

通过这段代码，用户可以轻松调用模型来判断输入文本是否含有不当内容。

局限性与偏见

尽管该模型在识别网络不当评论方面有显著的表现，其中也存在一些局限性，主要体现在对特定身份小组的评论分类效果较差。例如，对于提到穆斯林的评论，模型表现不佳。当输入“穆斯林是信奉或实践伊斯兰教的群体”这样的句子时，模型可能会误判为不当言论。

以下是模型对不同身份小组的评价评分表：

身份小组	小组规模	小组AUC	BPSN AUC	BNSP AUC
Muslim	108	0.689	0.811	0.88
Jewish	40	0.749	0.86	0.825
Homosexual, Gay, or Lesbian	56	0.795	0.706	0.972
Black	84	0.866	0.758	0.975
White	112	0.876	0.784	0.97
Female	306	0.898	0.887	0.948
Christian	231	0.904	0.917	0.93
Male	225	0.922	0.862	0.967
Psychiatric or Mental Illness	26	0.924	0.907	0.95