ExtractThinker: 革新文档智能处理的开源利器

ExtractThinker

ExtractThinker: 革新文档智能处理的开源利器

在当今数字化时代，文档处理和数据提取已成为许多企业和组织的关键需求。然而，从各种格式的文档中准确高效地提取结构化信息仍然是一个具有挑战性的任务。为了解决这个问题，一个名为ExtractThinker的创新开源项目应运而生，它旨在通过结合大型语言模型(LLM)的强大能力，为文档智能处理带来革命性的变革。

ExtractThinker简介

ExtractThinker是一个专门用于从文件和文档中以不可知方式提取数据的库，它利用LLM的能力，提供了文件和LLM之间的ORM风格交互，从而实现灵活而强大的文档提取工作流程。这个项目由开发者Júlio Almeida创建，目前在GitHub上开源，受到了开发者社区的广泛关注。

ExtractThinker Logo

ExtractThinker的核心特性

ExtractThinker具有以下几个突出的特性，使其在文档智能处理领域脱颖而出：

多种文档加载器支持：ExtractThinker支持多种文档加载器，包括Tesseract OCR、Azure Form Recognizer、AWS TextExtract和Google Document AI等。这种多样性使得它能够处理各种格式的文档，提高了适用性和灵活性。
自定义提取：通过契约定义，用户可以自定义提取过程，以满足特定的业务需求。这种灵活性使得ExtractThinker能够适应各种复杂的文档处理场景。
异步处理：为了提高效率，ExtractThinker支持异步处理，这使得它能够高效地处理大量文档，适合批量处理和高吞吐量的应用场景。
内置多种文档格式支持：ExtractThinker内置支持各种文档格式，无需额外的转换步骤，直接处理多种类型的文件。
ORM风格交互：ExtractThinker提供了文件和LLM之间的ORM风格交互，这种设计使得开发者可以用类似操作数据库的方式来处理文档，大大简化了开发过程。

ExtractThinker Features

ExtractThinker的安装和使用

ExtractThinker的安装非常简单，可以通过pip直接安装：

pip install extract_thinker

使用ExtractThinker也非常直观。以下是一个简单的示例，展示了如何使用Tesseract OCR加载文档并提取特定字段：

import os
from dotenv import load_dotenv
from extract_thinker import DocumentLoaderTesseract, Extractor, Contract

load_dotenv()
cwd = os.getcwd()

class InvoiceContract(Contract):
    invoice_number: str
    invoice_date: str

tesseract_path = os.getenv("TESSERACT_PATH")
test_file_path = os.path.join(cwd, "test_images", "invoice.png")

extractor = Extractor()
extractor.load_document_loader(
    DocumentLoaderTesseract(tesseract_path)
)
extractor.load_llm("claude-3-haiku-20240307")

result = extractor.extract(test_file_path, InvoiceContract)

print("Invoice Number: ", result.invoice_number)
print("Invoice Date: ", result.invoice_date)

这个例子展示了ExtractThinker如何轻松地从发票图像中提取关键信息，如发票号码和日期。

ExtractThinker vs LangChain

虽然LangChain是一个广泛用于各种用例的通用框架，但ExtractThinker专注于智能文档处理（IDP）。尽管在IDP领域实现100%的准确性仍然是一个挑战，但利用LLM的能力，ExtractThinker将我们带到了更接近这个目标的地方。

ExtractThinker的创建者解释道："虽然LangChain在整合各个部分方面做得很好，但在从文档和其他来源提取数据时往往会遇到困难。ExtractThinker属于像instructor（pydantic输出）和litellm（LLM模型之间的不可知调用）这样的工具类别，它解决了一个特定的问题。它的层次稍高一些，但重点是相同的：使用LLM进行文档提取，就像使用ORM一样。"