关系抽取的高效端到端语 言生成新方法
此项目引入了一种新型线性化方法,将关系抽取重新定义为序列到序列任务。通过BART模型,实现了超200种关系类型的端到端抽取,简化传统多步骤流程并减少错误传播。该模型在多个关系抽取和分类基准上表现出色,并提供多语言版本mREBEL和数据集支持,适用于各种信息抽取应用。
REBEL(全称为“Relation Extraction By End-to-end Language generation”)是一个专注于关系抽取的创新项目,旨在通过端到端语言生成的方式简化文本关系抽取任务。传统的文本信息抽取通常需要复杂的多步骤流程,容易产生错误,而 REBEL 通过将关系提取重新表述为序列到序列(seq2seq)的任务,大大简化了流程。
REBEL 的目标是从原始文本中提取关系三元组(subject-relationship-object),这对于填充或验证知识库、事实核查及其他下游任务至关重要。项目通过线性化新方法来提高提取准确性,同时通过改进的自回归 seq2seq 模型帮助实现这一目标。
REBEL 使用了基于 BART 的 seq2seq 模型,能够处理超过 200 种不同类型的关系。模型通过在多个关系提取和分类的评测中进行微调,在大多数情况下达到了最先进的性能。
项目代码采用模块化结构,包含:
conf
:包含 Hydra 配置文件。data
:存储数据和数据集脚本。model
:用于存储模型文件。src
:核心源代码,包含数据模块、模型模块及训练脚本等。此外,模型还提供了使用 spaCy 插件的功能,用户可以在 spaCy 环境中无缝集成并使用 REBEL 进行完整的关系抽取任务。
REBEL 项目发布了多个多语言数据集,包括:
这些数据集为模型提供广泛的训练和测试基础,支持多种语言的关系抽取。