pdfminer.six
我们深入理解PDF
Pdfminer.six是原始PDFMiner的社区维护分支。它是一个从PDF文档中提取信息的工具。它专注于获取和分析文本数据。Pdfminer.six直接从PDF的源代码中提取页面文本。它还可以用于获取文本的精确位置、字体或颜色。
它采用模块化设计,使得pdfminer.six的每个组件都可以轻松替换。您可以实现自己的解释器或渲染设备,利用pdfminer.six的功能来实现文本分析以外的其他目的。
查看Read the Docs上的完整文档。
特性
- 完全用Python编写。
- 解析、分析和转换PDF文档。
- 提取内容为文本、图像、html或hOCR。
- 支持PDF-1.7规范(几乎完全支持)。
- 支持CJK语言和垂直书写脚本。
- 支持各种字体类型(Type1、TrueType、Type3和CID)。
- 支持提取图像(JPG、JBIG2、位图)。
- 支持各种压缩(ASCIIHexDecode、ASCII85Decode、LZWDecode、FlateDecode、RunLengthDecode、CCITTFaxDecode)。
- 支持RC4和AES加密。
- 支持提取AcroForm交互式表单。
- 目录提取。
- 标签内容提取。
- 自动布局分析。
如何使用
-
安装Python 3.8或更新版本。
-
安装pdfminer.six。
pip install pdfminer.six
-
(可选)安装额外的依赖项以提取图像。
pip install 'pdfminer.six[image]'
-
使用命令行界面从pdf中提取文本。
pdf2txt.py example.pdf
-
或在Python中使用。
from pdfminer.high_level import extract_text text = extract_text("example.pdf") print(text)
贡献
请务必阅读贡献指南。
致谢
本仓库包含来自pyHanko
的代码;原始许可证已包含在此处。