GROBID

GROBID文档

访问 GROBID文档获取更详细的信息。

概要

GROBID（或Grobid，但不是GroBid或GroBiD）代表GeneRation Of BIbliographic Data。

GROBID是一种机器学习库，用于提取、解析和重构原始文档（例如PDF）为结构化的XML/TEI编码文档，特别关注技术和科学出版物。最早在2008年开始作为一种爱好开发，源于Laurent Romary（法国Inria）的建议。2011年，该工具以开源形式对外发布。自始至终，GROBID作为一个侧项目稳步进行，并得益于Inria持续的支持，相信今后也会继续如此。

提供以下功能：

从PDF格式的文章中提取和解析__头部信息__。提取内容包括常见的书目信息（如标题、摘要、作者、机构、关键词等）。
从PDF格式的文章中提取和解析__参考文献__，在一个包含90,125条参考文献的独立PubMed Central数据集（1943篇PDF）上获得约0.87的F1分数，在一个类似的bioRxiv数据集（2000篇PDF）上获得约0.90的分数（使用深度学习引用模型）。覆盖所有常规出版物元数据（包括DOI，PMID等）。
识别和解析文章的__引用上下文__，准确率为0.76到0.91的F1分数，取决于评估集（即正确识别引用标记并正确关联完整参考文献）。
从PDF文章中__提取和结构化全文__，包含全篇文档分段和文本主体结构化模型（段落、章节标题、参考和脚注标记、图表、数据可用性声明等）。
提取信息的__PDF坐标__，允许基于识别出的结构创建“增强”交互PDF。
__单独解析__参考文献（在实例级别上超过0.90的F1分数，在字段级别上超过0.95的F1分数，使用深度学习模型）。
解析人名（如人名标题、名、中间名等），特别是头部的作者名和文献中的作者名（两种独立的模型）。
解析__隶属关系和地址__块。
解析__日期__，ISO标准化的日、月、年。
通过biblio-glutton服务或CrossRef REST API进行__书目信息的整合/解析__。在这两种情况下，PDF提取的DOI/PMID解析性能超过0.95的F1分数。
提取和解析__专利和非专利文献__中的参考文献。
提取__资助者和资助信息__，可选与CrossRef Funder Registry提取的资助者进行匹配。
识别文档相关的版权持有者和许可证，如出版商或作者版权、CC-BY/CC-BY-NC等许可证。

在完整的PDF处理过程中，GROBID管理68个末端标签，用于构建相对细粒度的结构，从传统出版元数据（标题、作者名/姓/中间名、隶属关系类型、详细地址、期刊、卷号、期号、页码、DOI、PMID等）到全文结构（章节标题、段落、参考标记、页头/页脚注释、图片说明等）。

GROBID包含一个全面的Web服务API、Docker镜像、批处理、一个JAVA API、一个通用的训练和评估框架（精确度、召回率等，n折交叉评估）、成千上万文档的系统性端到端基准测试和半自动生成训练数据。

GROBID可以被视为生产就绪。生产部署包括ResearchGate、Semantic Scholar、HAL Research Archive、scite.ai、Academia.edu、Internet Archive Scholar、INIST-CNRS、CERN（Invenio）等许多公司。该工具设计用于速度和高可扩展性，以处理整个科学文献语料库。

GROBID应该能够在Linux（64位）和macOS（Intel和ARM）上“开箱即用”正常运行。目前我们无法像以前一样保证对Windows的支持（欢迎贡献力量！）。

GROBID使用依赖于DeLFT库的深度学习模型，这是一个面向序列标注和文本分类的任务无关深度学习框架，通过JEP。GROBID可以运行深度学习架构（具有或不具有布局特征通道的RNN或transformers）或特征工程的CRF（默认），或者CRF和DL的任何混合，以平衡可扩展性和准确性。这些模型使用由pdfalto提供的联合文本和视觉/布局信息。

请注意，默认情况下不使用深度学习模型，仅选择CRF以适应“开箱即用”硬件环境。为了提高准确性，您需要根据需求和硬件能力（特别是GPU可用性和运行时要求）在GROBID配置文件中选择使用的深度学习模型。一些GROBID深度学习模型性能明显优于默认的CRF，特别是在书目引用解析方面，因此建议根据需要选择这些模型以正确使用该工具。

演示

演示服务器

为了测试目的，感谢HuggingFace，提供了两个公共的GROBID演示服务器，托管为spaces。

一个结合了深度学习模型和CRF模型的GROBID演示服务器可在以下地址访问：https://kermitt2-grobid.hf.space/ 或 https://huggingface.co/spaces/kermitt2/grobid。然而，该演示仅在CPU上运行。如果您在自己的服务器部署中有GPU，速度将显著加快。

一个仅使用CRF的较快演示服务器可在https://kermitt2-grobid-crf.hf.space/ 或 https://huggingface.co/spaces/kermitt2/grobid-crf访问。然而，准确性较低。

Web服务文档在这里。

警告：演示服务器存在配额和查询限制！请友好使用，不要过载演示服务器。对于任何严肃的工作，您都需要部署和使用自己的Grobid服务器，请参见GROBID和Docker容器文档以便轻松完成部署并激活一些深度学习模型。

在Play With Docker中试用

等待30秒，以便Grobid容器创建完成后再在8080端口上打开浏览器标签页。该演示容器仅运行CRF模型。请注意，在“冷”容器上第一次处理PDF需要额外的60秒加载模型。然后这个Grobid容器将在4小时内仅供您使用。

客户端

为了便于大规模使用GROBID服务，我们提供了使用Web服务进行并行批处理的Python、Java和node.js客户端：

<a href="https://github.com/kermitt2/grobid-client-python" target="_blank">Python GROBID 客户端</a>（在支持的服务和选项方面最完整的一款）
<a href="https://github.com/kermitt2/grobid-client-java" target="_blank">Java GROBID 客户端</a>
<a href="https://github.com/kermitt2/grobid-client-node" target="_blank">Node.js GROBID 客户端</a>

所有这些客户端将利用多线程来扩展大规模的 PDF 处理。因此，它们将比批处理命令行（仅使用一个线程）更加高效，因此应该优先选择它们。

例如，我们使用上面列出的 Node.js 客户端，在一周内一台 16 CPU 的机器上（16 个线程，32GB 内存，无 SDD，主流出版商的文章），以大约每秒 10.6 个 PDF 的速度运行完整的全文处理，大约每天处理 915,000 个 PDF，大约每天处理 2000 万页。请参见此处（两台服务器在 6 天内不间断地处理了 1130 万 PDF）。

此外，还有一个 Java 示例项目，可以展示如何将 GROBID 用作 Java 库：https://github.com/kermitt2/grobid-example。该示例项目使用 GROBID Java API 从 PDF 中提取标题元数据和引用，并以 BibTeX 格式输出结果。

最后，以下 Python 工具可用于创建结构化的科学文章全文语料库。该工具只需一个强标识符列表（如 DOI 或 PMID），即可识别在线开放获取的 PDF，进行全文抓取，元数据聚合和 GROBID 处理，形成大规模的一体化工作流程：article-dataset-builder

GROBID 如何工作

访问描述系统的文档页面。总结一下，GROBID 的关键设计原则是：

GROBID 使用一系列序列标注模型来解析文档。
不同的模型不处理文本，而是处理布局标记，以利用每个标记可用的各种视觉/布局信息。
GROBID 不使用从现有出版商的 XML 文档中提取的训练数据，而是使用手动标注的小规模高质量数据集。
技术选择和默认设置由能够快速处理 PDF 的能力驱动，使用普通硬件并具有良好的并行处理和可扩展性。

详细的端到端基准测试可在 GROBID 文档中找到并持续更新。

GROBID 模块

一系列额外的模块已经开发出来，直接在学术 PDF 上执行 结构感知 的文本挖掘，重用 GROBID 的 PDF 处理和序列标注功能：

software-mention：在科学文献中识别软件提及及相关属性
datastet：识别科学文章中具名或隐含的研究数据集及相关属性
grobid-quantities：识别和归一化物理量/测量参数
grobid-superconductors：识别科学文献中超导体材料及性质
entity-fishing：从文本和文档中提取维基数据实体的工具，还可以使用 Grobid 预处理 PDF 格式的科学文章，从而实现更精准和相关的实体提取并具有注解 PDF 的互动布局功能
datastet：识别科学文章中介绍数据集的段落和句子，识别数据集名称（隐含和具名数据集）并对这些数据集类型进行分类
grobid-ner：命名实体识别
grobid-astro：识别科学论文中的天文实体
grobid-bio：使用 BioNLP/NLPBA 2004 数据集的玩具生物实体标注器
grobid-dictionaries：将原始 PDF 格式的词典进行结构化处理

发布和变更

请参见变更日志。

授权

GROBID 根据 Apache 2.0 许可证分发。

文档根据 CC-0 许可证分发，注释数据根据 CC-BY 许可证分发。

如果你为 GROBID 做出贡献，你同意按照这些许可证分享你的贡献。

主要作者和联系方式：Patrice Lopez (patrice.lopez@science-miner.com)

赞助商

ej-technologies 为我们的 Java Profiler 提供了免费的开源许可证。点击下方的 JProfiler 标志了解更多。

引用方式

如果你想引用此工作，请参考本 GitHub 项目，并结合 Software Heritage 项目级持久标识符。例如，用 BibTeX：

@misc{GROBID,
    title = {GROBID},
    howpublished = {\url{https://github.com/kermitt2/grobid}},
    publisher = {GitHub},
    year = {2008--2024},
    archivePrefix = {swh},
    eprint = {1:dir:dab86b296e3c3216e2241968f0d63b68e8209d3c}
}

请参阅 GROBID 文档了解更多相关资源。