DeBERTa V3零样本分类模型,适用于多场景
DeBERTa V3模型在Hugging Face管道中实现零样本分类,满足商业环境的许可证要求。无需训练数据即可高效分类,支持GPU和CPU应用,适用于多个领域。通过合成及商用友好的数据进行训练,模型在多文本分类任务中表现优异。
DeBERTa-v3-base-zeroshot-v2.0 是一个强大的文本分类模型,属于 zeroshot-v2.0 系列。此系列模型旨在实现高效的零样本分类,即无需任何训练数据即可进行分类。这些模型可以在 GPU 和 CPU 上运行,非常灵活,并且主要通过 Hugging Face 的 pipeline 技术进行实现。
zeroshot-v2.0 系列的一个重大更新是,它们使用完全商业友好的数据进行训练,非常适合对许可证要求严格的用户。
这些模型能够完成一个通用的分类任务:给定一段文本,判断假设是否为“真”或“不真”(即“蕴涵”或“非蕴涵”)。这种任务格式基于自然语言推理(NLI)任务,非常普遍。因此,通过 Hugging Face 的 pipeline,可以将任何分类任务重新表述为此类任务。
带有“-c”后缀的模型是基于两类完全商业友好的数据进行训练的:
模型的使用非常简单,只需几行代码即可:
from transformers import pipeline text = "Angela Merkel is a politician in Germany and leader of the CDU" hypothesis_template = "This text is about {}" classes_verbalized = ["politics", "economy", "entertainment", "environment"] zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-large-zeroshot-v2.0") output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False) print(output)
multi_label
参数控制模型选择单个还是多个类别。
模型的性能通过 28 种不同的文本分类任务进行评估,使用 f1_macro 作为衡量指标。与当时使用最广泛的零样本分类器(facebook/bart-large-mnli)相比,模型显示出较优的性能。
-c