Italian_NER_XXL

项目概述

Italian_NER_XXL是一个基于人工智能的初始版本模型，专注于意大利的命名实体识别。在Hugging Face上的首次发布中，此模型显示出79%的准确率。意图在通过每月更新来持续提升其性能。尽管这是一个初期版本，但该模型已经在识别多达52种不同类别的实体方面表现出色，颇具扩展性和适用性。

独特的意大利功能

该模型是意大利唯一能够识别多达52种不同类别实体的模型。与其他市场上现有的模型相比，其能够在实体识别上提供前所未有的深度和广度。这种独特性使其在意大利市场上具有明显的竞争优势。

技术与创新

模型基于BERT架构，这是自然语言处理（NLP）领域最先进的技术之一。为了确保高精度和高效率，使用最先进的技术进行训练。这一技术选择确保了模型对自然语言的深刻理解和智慧的处理能力。

可识别类别

Italian_NER_XXL模型可以识别以下类别：

地址（INDIRIZZO）
货币（VALUTA）
信用卡安全码（CVV）
银行账户号码（NUMERO_CONTO）
银行标识符代码（BIC）
国际银行账户号码（IBAN）
国家（STATO）
名字（NOME）
姓氏（COGNOME）
邮政编码（CODICE_POSTALE）
IP地址（IP）
时间（ORARIO）
URL（网址）
地点（LUOGO）
金额（IMPORTO）
电子邮件（EMAIL）
密码（PASSWORD）
信用卡或借记卡号（NUMERO_CARTA）
车牌号（TARGA_VEICOLO）
出生日期（DATA_NASCITA）
死亡日期（DATA_MORTE）
法人名称（RAGIONE_SOCIALE）
年龄（ETA）
日期（DATA）
职业（PROFESSIONE）
个人识别号码（PIN）
电话号码（NUMERO_TELEFONO）
文档页面（FOGLIO）
地块编号（PARTICELLA）
病历（CARTELLA_CLINICA）
疾病（MALATTIA）
医药（MEDICINA）
税号（CODICE_FISCALE）
文件编号（NUMERO_DOCUMENTO）
临床历史（STORIA_CLINICA）
律师或公证人（AVV_NOTAIO）
增值税号（P_IVA）
法律条款（LEGGE）
抵押利率（TASSO_MUTUO）
法律判决号码（N_SENTENZA）
注册地块（MAPPALE）
从属地块（SUBALTERNO）
财产制度（REGIME_PATRIMONIALE）
婚姻状况（STATO_CIVILE）
银行（BANCA）
商业品牌（BRAND）
支票号码（NUM_ASSEGNO_BANCARIO）
国际移动设备识别码（IMEI）
许可证编号（N_LICENZA）
IPv6地址（IPV6_1）
MAC地址（MAC）
用户代理（USER_AGENT）
法庭（TRIBUNALE）
药力（STRENGTH）
频率（FREQUENZA）
持续时间（DURATION）
剂量（DOSAGGIO）
形式（FORM）

使用方法

要使用此模型，可以通过以下Python代码进行示例应用：

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("DeepMount00/Italian_NER_XXL")
model = AutoModelForTokenClassification.from_pretrained("DeepMount00/Italian_NER_XXL", ignore_mismatched_sizes=True)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)

example = """Il commendatore Gianluigi Alberico De Laurentis-Ponti, con residenza legale in Corso Imperatrice 67,  Torino, avente codice fiscale DLNGGL60B01L219P, è amministratore delegato della "De Laurentis Advanced Engineering Group S.p.A.",  che si trova in Piazza Affari 32, Milano (MI); con una partita IVA di 09876543210, la società è stata recentemente incaricata di sviluppare una nuova linea di componenti aerospaziali per il progetto internazionale di esplorazione di Marte."""
ner_results = nlp(example)
print(ner_results)

总结

该模型的主要目标是提供有效且准确的多类别实体识别，这超越了传统模型的限制。作为意大利唯一能够识别如此多实体的模型，它被认为是许多应用领域的无价之宝。持续的模型发展和改进是我们的首要任务，以确保其始终提供顶尖的表现。

贡献与联系

对于那些有意对该项目做出贡献、提出改进建议或者需要针对特定需求的命名实体识别器的人士，可以随时联系Michele Montebovi（邮件地址：montebovi.michele@gmail.com）。您的意见和合作将极大地增强模型的功能和应用。我们非常感谢您的支持和参与，以便不断改善和扩展Italian_NER_XXL模型的功能。