doctr

项目介绍：docTR

docTR 项目是一个由 Mindee 推出的开源项目，专注于通过光学字符识别（OCR）技术解析和识别文档中的文本。该项目基于 TensorFlow 2 和 PyTorch 框架，旨在使光学字符识别变得无缝且可供任何人使用。

项目功能

docTR 可以高效地从文档中解析文本信息，包括定位和识别每个单词。此外，它还提供如何将该功能集成到现有系统中的指导。

快速上手

获取预训练模型

在 docTR 中，OCR 通过两阶段的方法实现：首先进行文本检测（定位单词），然后进行文本识别（识别单词中的所有字符）。用户可以从提供的实现中选择用于文本检测和识别的架构。

from doctr.models import ocr_predictor

model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)

读取文件

docTR 支持从 PDF 或图像文件中读取文档：

from doctr.io import DocumentFile
# PDF
pdf_doc = DocumentFile.from_pdf("path/to/your/doc.pdf")
# Image
single_img_doc = DocumentFile.from_images("path/to/your/img.jpg")

综合分析

利用默认的预训练模型进行文档分析示例：

from doctr.io import DocumentFile
from doctr.models import ocr_predictor

model = ocr_predictor(pretrained=True)
doc = DocumentFile.from_pdf("path/to/your/doc.pdf")
result = model(doc)

文档旋转处理

docTR 提供多种处理旋转文档或多方向文本框的方法，确保文本识别的准确性。

KIE 预测器

KIE 预测器比传统 OCR 更灵活，可以在文档中检测多个类别，例如日期和地址。

from doctr.io import DocumentFile
from doctr.models import kie_predictor

model = kie_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)
doc = DocumentFile.from_pdf("path/to/your/doc.pdf")
result = model(doc)

安装指南

先决条件

安装 docTR 需要 Python 3.10 或更高版本以及 pip。

模型架构

docTR 实现了多个已发布的研究论文中的架构，包括 DBNet、CRNN 等，用于文本检测和识别。

其他功能

项目提供了详细的文档、简单的演示应用，以及用于不同平台的演示版本，包括本地运行和基于 TensorFlow.js 的在线运行。

Docker 支持

docTR 提供 Docker 支持，便于测试和部署。docTR 的 Docker 镜像支持 GPU，并基于 CUDA 12.2。

示例脚本

对 PDF 或图像文件的简单文档分析示例：

python scripts/analyze.py path/to/your/doc.pdf

API 集成

可以将 docTR 集成到 API 中，使用 FastAPI 框架提供模板进行开发和部署。

贡献和许可证

docTR 项目欢迎开源社区的贡献，并根据 Apache 2.0 许可证发布。

docTR 提供强大的 OCR 功能和超高的灵活性，是文本识别领域的优秀工具，对于开发者和企业而言，都是一种高效而适用的解决方案。

项目介绍：docTR

项目功能

快速上手

获取预训练模型

读取文件

综合分析

文档旋转处理

KIE 预测器

安装指南

先决条件

最新发行版

模型架构

其他功能

Docker 支持

示例脚本

API 集成

贡献和许可证

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号