gmft

give

formatted

tables!

有很多PDF文件，其中许多包含表格。尽管存在大量表格提取选项，但仍然没有一种决定性的提取方法。

关于

gmft是一个将PDF表格转换为多种格式的工具包。它轻量、模块化且高效。

包含所有必需组件：默认设置下即可使用，提供强大的性能。

它依赖于微软的Table Transformers，在众多替代方案中，这是质量最高、最可靠的选择。

安装：pip install gmft

快速入门：演示笔记本、批量提取、readthedocs。

文档：readthedocs

为什么使用gmft？

快速、轻量且高效，gmft是从PDF中提取表格的绝佳选择。

提取质量出色：查看批量提取笔记本以了解大致质量。在对同一组表格测试多种表格提取选项时，gmft表现非常出色，可以说提取质量是最佳的。

多种格式

gmft支持以下导出选项：

Pandas数据框（!）
通过扩展：markdown、latex、html、csv、json等
文本+位置列表
表格裁剪图像
表格标题

裁剪图像对于直接输入视觉识别器很有用，例如：

GPT-4 vision
Mathpix/Adobe/Google/Amazon/Azure等

裁剪图像也非常适合验证输出的正确性。

轻量

无需GPU

由于依赖少，gmft非常轻量。其架构（Table Transformer）允许gmft在CPU上运行。

高吞吐量

使用Colab的CPU进行基准测试表明，每页约需1.381秒；转换为数据框约需1.168秒/表格。请查看此处的比较。这使得gmft比unstructured、nougat和open-parse/unitable等替代方案在CPU上快约10倍。原因如下：

基础模型Smock等人的Table Transformer速度极快。
gmft专注于表格提取，不提取图形、标题、章节等。
大多数情况下不需要OCR；PDF已包含文本位置数据。使用这些现有数据大大加快了推理速度。尽管如此，gmft仍可通过图像输出从图像和扫描的PDF中提取表格。
选择PyPDFium2是因为其高吞吐量和宽松的许可证。

依赖少

许多PDF提取器需要detectron2、poppler、paddleocr、tesseract等，可能需要额外安装。在Windows上安装detectron2尤其困难。OCR模型可能需要tesseract或paddleocr。

gmft可以通过一行命令安装：pip install gmft。但预先安装transformers和pytorch可能会有所帮助。

gmft主要依赖pypdfium2和transformers。首次运行时，gmft会从huggingface下载微软的TATR，总共需要约270MB，并保存到~/.cache/huggingface/hub/models--microsoft--table-{transformer-detection, structure-recognition}和~/.cache/huggingface/hub/models--timm--resnet18.a1_in1k。

可靠

gmft使用微软的Table Transformer（TATR），该模型在diverse dataset PubTables-1M上训练。考虑了许多替代方法，最终选择TATR的原因之一是其高可靠性。

作者确信提取质量是无与伦比的。当模型失败时，通常是由于OCR问题、合并单元格或误报。即使在这些情况下，文本仍然高度可用。由于底层的程序算法，值与其行/列标题的对齐往往非常准确。

我们邀请您探索比较笔记本以调查用例并比较结果。

模块化

通过子类化BasePDFDocument和BasePage类，gmft的设计支持其他PDF提取方法（如PyMuPDF、PyPDF、pdfplumber等）。

通过子类化TableDetector和TableFormatter，可以使用不同的架构和替代表格检测/结构提取方法。可以通过指定huggingface hub路径来使用微调模型。

可配置

查看配置指南以了解gmft设置的讨论。

快速入门

有关更多信息，请参阅文档和配置指南。演示笔记本和批量提取包含更全面的代码示例。

from gmft import CroppedTable, TableDetector, AutoTableFormatter
from gmft.pdf_bindings import PyPDFium2Document

detector = TableDetector()
formatter = AutoTableFormatter()

def ingest_pdf(pdf_path): # 生成list[CroppedTable]
    doc = PyPDFium2Document(pdf_path)
    tables = []
    for page in doc:
        tables += detector.extract(page)
    return tables, doc

tables, doc = ingest_pdf("path/to/pdf.pdf")
doc.close() # 使用完文档后关闭

讨论

新功能

[实验性] 在v0.2版本中，通过设置TATRFormatConfig.enable_multi_header = True，现在支持多级索引（多列标题）。

[实验性] 在v0.2版本中，通过设置TATRFormatConfig.semantic_spanning_cells = True，现在支持跨行跨列单元格。

在v0.0.4版本中，现在支持旋转表格。

局限性

误检测参考文献、索引和大型列式文本。

稍微倾斜的表格。

致谢

非常感谢PubTables1M（和Table Transformer）的作者：Brandon Smock、Rohith Pesala和Robin Abraham，他们使gmft成为可能。图像->csv步骤基于TATR的inference.py代码，但为了便于使用，已经进行了重写和一些调整。

感谢Niels Rogge将TATR移植到huggingface并编写可视化代码。

替代方案

查看比较。

Gmft高度专注于PDF表格。对于表格，另一个很好的选择是img2table，它是非深度学习的，并且获得了很好的结果。

Nougat在PDF表格提取和文档理解方面都表现出色。它输出完整的mathpix markdown（.mmd），包括latex公式、粗体/斜体和完全latex排版的表格。但强烈建议使用GPU。

对于一般文档理解，我推荐查看open-parse、unstructured、surya、deepdoctection和DocTR。Open-parse和unstructured在相同示例PDF的提取质量方面表现相当出色。

Open-parse允许提取辅助信息，如标题、段落等，这对RAG很有用。除了Table Transformer，open-parse还提供UniTable，这是一个更新的模型，在PubLayNet和FinTabNet等许多数据集上达到了SOTA结果。虽然gmft计划在未来支持UniTable，但UniTable要大得多（约1.5 GB）并且在CPU上运行速度慢得多（几乎慢90倍！）。因此，TATR仍然因其速度而受到青睐。此外，与table transformer相反，Unitable可能首先因错位的html标签而导致对齐失败。这可能会影响对齐至关重要的用例。