OCRmyPDF

OCRmyPDF

扫描PDF文件的OCR转换与优化工具

OCRmyPDF是一款开源的命令行工具,专门用于为扫描PDF文件添加OCR文本层。它支持多语言识别、页面旋转和倾斜校正,并能生成符合长期存储标准的PDF/A文件。此工具可优化PDF图像,常常生成比原文件更小的输出。OCRmyPDF利用多核处理技术,能高效处理大型文档,已在数百万PDF文件上得到验证。它为用户提供了将不可搜索的扫描文档转换为可搜索、可复制的PDF文件的简便方法。

OCRmyPDFPDF文档文字识别开源软件多语言支持Github开源项目
<!-- SPDX-FileCopyrightText: 2014 Julien Pfefferkorn --> <!-- SPDX-FileCopyrightText: 2015 James R. Barlow --> <!-- SPDX-License-Identifier: CC-BY-SA-4.0 --> <img src="https://yellow-cdn.veclightyear.com/835a84d5/782d7f6f-168b-4ea8-a1c0-15988272c8f4.svg" width="240" alt="OCRmyPDF">

构建状态 PyPI版本 Homebrew版本 ReadTheDocs Python版本

OCRmyPDF为扫描的PDF文件添加OCR文本层,使其可搜索或复制粘贴。

ocrmypdf # 这是一个可编程的命令行程序 -l eng+fra # 支持多种语言 --rotate-pages # 可以修正旋转错误的页面 --deskew # 可以纠正倾斜的PDF! --title "My PDF" # 可以更改输出元数据 --jobs 4 # 默认使用多个核心 --output-type pdfa # 默认生成PDF/A input_scanned.pdf # 接受PDF输入(或图像) output_searchable.pdf # 生成经过验证的PDF输出

查看发布说明了解最新变更的详情

主要特性

  • 从普通PDF生成可搜索的PDF/A文件
  • 准确地将OCR文本放置在图像下方,便于复制/粘贴
  • 保持原始嵌入图像的精确分辨率
  • 在可能的情况下,通过"无损"操作插入OCR信息,不影响任何其他内容
  • 优化PDF图像,通常生成的文件比输入文件更小
  • 如果需要,在执行OCR之前对图像进行纠偏和/或清理
  • 验证输入和输出文件
  • 在所有可用的CPU核心上分配工作
  • 使用Tesseract OCR引擎识别100多种语言
  • 保护您的私人数据安全
  • 适当扩展以处理数千页的文件
  • 在数百万PDF上经过实战检验
<img src="https://yellow-cdn.veclightyear.com/835a84d5/7f11e311-5575-4db3-badd-57ae3fea5d51.svg" alt="终端会话中OCRmyPDF的演示">

详情请参阅文档

动机

我在网上搜索了一个免费的命令行工具来对PDF文件进行OCR:我找到了很多,但没有一个真正令人满意:

  • 要么它们生成的PDF文件中文本位置不正确(无法复制/粘贴)
  • 要么它们不能处理重音和多语言字符
  • 要么它们改变了嵌入图像的分辨率
  • 要么它们生成的PDF文件大得离谱
  • 要么它们在尝试OCR时崩溃
  • 要么它们生成的PDF文件无效
  • 最重要的是,它们都不能生成PDF/A文件(用于长期存储的格式)

...所以我决定开发自己的工具。

安装

支持Linux、Windows、macOS和FreeBSD。也提供Docker镜像,同时支持x64和ARM。

操作系统安装命令
Debian, Ubuntuapt install ocrmypdf
Windows Subsystem for Linuxapt install ocrmypdf
Fedoradnf install ocrmypdf
macOS (Homebrew)brew install ocrmypdf
macOS (MacPorts)port install ocrmypdf
macOS (nix)nix-env -i ocrmypdf
LinuxBrewbrew install ocrmypdf
FreeBSDpkg install py-ocrmypdf
Condaconda install ocrmypdf
Ubuntu Snapsnap install ocrmypdf

对于其他用户,请查看我们的文档了解安装步骤。

语言

OCRmyPDF使用Tesseract进行OCR,并依赖其语言包。对于Linux用户,您通常可以找到提供语言包的软件包:

# 显示所有Tesseract语言包的列表 apt-cache search tesseract-ocr # Debian/Ubuntu用户 apt-get install tesseract-ocr-chi-sim # 示例:安装简体中文语言包 # Arch Linux用户 pacman -S tesseract-data-eng tesseract-data-deu # 示例:安装英语和德语语言包 # brew macOS用户 brew install tesseract-lang

然后,您可以将-l LANG参数传递给OCRmyPDF,以提示它应该搜索哪些语言。可以请求多种语言。

OCRmyPDF支持Tesseract 4.1.1+。它会自动使用在PATH环境变量中首先找到的版本。在Windows上,如果PATH中没有提供Tesseract二进制文件,我们会根据Windows注册表使用安装的最高版本号。

文档和支持

安装OCRmyPDF后,可以通过以下方式访问内置帮助,解释命令语法和选项:

ocrmypdf --help

我们的文档托管在Read the Docs上

请在我们的GitHub问题页面报告问题,并遵循问题模板以获得快速响应。

要求

除了所需的Python版本(3.8+)外,OCRmyPDF还需要外部程序安装Ghostscript和Tesseract OCR。OCRmyPDF是纯Python的,几乎可以在任何地方运行:Linux、macOS、Windows和FreeBSD。

新闻与媒体

商业咨询

如果没有公司和用户选择为功能开发和咨询提供支持,OCRmyPDF就不会成为今天这样的软件。我们很乐意讨论所有咨询,无论是扩展现有功能集,还是将OCRmyPDF集成到更大的系统中。

许可证

OCRmyPDF软件根据Mozilla公共许可证2.0(MPL-2.0)授权。该许可证允许将OCRmyPDF与其他代码集成,包括商业和闭源代码,但要求您发布对OCRmyPDF所做的源代码级修改。

OCRmyPDF的某些组件有其他许可证,如标准SPDX许可证标识符或DEP5版权和许可信息文件所示。一般来说,非核心代码采用MIT许可,文档和测试文件采用Creative Commons ShareAlike 4.0(CC-BY-SA 4.0)许可。

免责声明

该软件按"原样"分发,不提供任何明示或暗示的保证或条件。

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多