<p align="center"> <a href="https://github.com/opendatalab/PDF-Extract-Kit">PDF-Extract-Kit: 高质量PDF提取工具包</a>🔥🔥🔥 </p>  <p align="center"> 👋 加入我们的 <a href="https://discord.gg/Tdedn9GTXq" target="_blank">Discord</a> 和 <a href="https://cdn.vansin.top/internlm/mineru.jpg" target="_blank">微信</a> 社区 </p> </div>

更新日志

2024/08/09：发布0.7.0b1版本，简化安装流程，新增表格识别功能
2024/08/01：发布0.6.2b1版本，优化依赖冲突问题及安装文档
2024/07/05：首次开源发布

<details open="open"> <summary><h2 style="display: inline-block">目录</h2></summary> <ol> <li> <a href="#mineru">MinerU</a> <ul> <li><a href="#项目介绍">项目介绍</a></li> <li><a href="#主要特性">主要特性</a></li> <li><a href="#快速开始">快速开始</a> <ul> <li><a href="#在线演示">在线演示</a></li> <li><a href="#快速cpu演示">快速CPU演示</a></li> <li><a href="#使用gpu">使用GPU</a></li> </ul> </li> <li><a href="#使用方法">使用方法</a> <ul> <li><a href="#命令行">命令行</a></li> <li><a href="#api">API</a></li> <li><a href="#开发指南">开发指南</a></li> </ul> </li> </ul> </li> <li><a href="#待办事项">待办事项</a></li> <li><a href="#已知问题">已知问题</a></li> <li><a href="#常见问题">常见问题</a></li> <li><a href="#感谢所有贡献者">感谢所有贡献者</a></li> <li><a href="#许可证信息">许可证信息</a></li> <li><a href="#致谢">致谢</a></li> <li><a href="#引用">引用</a></li> <li><a href="#星标历史">星标历史</a></li> <li><a href="#magic-doc">Magic-doc</a></li> <li><a href="#magic-html">Magic-html</a></li> <li><a href="#相关链接">相关链接</a></li> </ol> </details>

MinerU

项目介绍

MinerU是一个将PDF转换为机器可读格式（如markdown、JSON）的工具，可以轻松提取成任意格式。 MinerU诞生于InternLM的预训练过程中。我们专注于解决科学文献中的符号转换问题，希望为大模型时代的技术发展贡献力量。与知名商业产品相比，MinerU仍然年轻。如果您遇到任何问题或结果不如预期，请在issue上提交问题，并附上相关PDF。

https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c

主要特性

移除页眉、页脚、脚注、页码等元素，同时保持语义连贯性
从多栏文档中以人类可读的顺序输出文本
保留文档原有结构，包括标题、段落和列表
提取图片、图片说明、表格和表格说明
自动识别文档中的公式并转换为LaTeX格式
自动识别文档中的表格并转换为LaTeX格式
自动检测并启用OCR处理损坏的PDF
支持CPU和GPU环境
支持Windows、Linux和Mac平台

快速开始

如果您遇到任何安装问题，请首先查阅<a href="#常见问题">常见问题</a>。</br> 如果解析结果不如预期，请参考<a href="#已知问题">已知问题</a>。</br> 有三种不同的方式体验MinerU：

在线演示（无需安装）
快速CPU演示（Windows、Linux、Mac）
Linux/Windows + CUDA

⚠️ 安装前注意事项——硬件和软件环境支持 为了确保项目的稳定性和可靠性，我们在开发过程中只针对特定的硬件和软件环境进行优化和测试。这确保了用户在推荐的系统配置上部署和运行项目时，能获得最佳性能和最少的兼容性问题。

通过将资源集中在主线环境上，我们的团队可以更高效地解决潜在的错误并开发新功能。

在非主线环境中，由于硬件和软件配置的多样性，以及第三方依赖的兼容性问题，我们无法保证项目100%可用。因此，对于希望在非推荐环境中使用本项目的用户，我们建议先仔细阅读文档和常见问题解答。大多数问题在常见问题解答中已有相应的解决方案。我们也鼓励社区反馈，以帮助我们逐步扩大支持范围。

<table> <tr> <td colspan="3" rowspan="2">操作系统</td> </tr> <tr> <td>Ubuntu 22.04 LTS</td> <td>Windows 10 / 11</td> <td>macOS 11+</td> </tr> <tr> <td colspan="3">CPU</td> <td>x86_64</td> <td>x86_64</td> <td>x86_64 / arm64</td> </tr> <tr> <td colspan="3">内存</td> <td colspan="3">16GB或以上，推荐32GB+</td> </tr> <tr> <td colspan="3">Python版本</td> <td colspan="3">3.10</td> </tr> <tr> <td colspan="3">Nvidia驱动版本</td> <td>最新版（专有驱动）</td> <td>最新版</td> <td>无</td> </tr> <tr> <td colspan="3">CUDA环境</td> <td>自动安装 [12.1 (pytorch) + 11.8 (paddle)]</td> <td>11.8（手动安装）+ cuDNN v8.7.0（手动安装）</td> <td>无</td> </tr> <tr> <td rowspan="2">GPU硬件支持列表</td> <td colspan="2">最低要求 8G+ 显存</td> <td colspan="2">3060ti/3070/3080/3080ti/4060/4070/4070ti<br> 8G显存仅能启用版面和公式识别加速</td> <td rowspan="2">无</td> </tr> <tr> <td colspan="2">推荐配置 16G+ 显存</td> <td colspan="2">3090/3090ti/4070ti super/4080/4090<br> 16G或以上可同时启用版面、公式识别和OCR加速</td> </tr> </table>

在线演示

点击此处查看在线演示

快速CPU演示

1. 安装 magic-pdf

conda create -n MinerU python=3.10
conda activate MinerU
pip install magic-pdf[full]==0.7.0b1 --extra-index-url https://wheels.myhloli.com

2. 下载模型权重文件

详细说明请参考如何下载模型文件。

❗️下载模型后，请务必验证模型文件的完整性。

检查模型文件大小是否与网页上的描述相符。如果可能，请使用sha256验证文件的完整性。

3. 复制并配置模板文件

您可以在仓库的根目录找到magic-pdf.template.json模板配置文件。

❗️请确保执行以下命令将配置文件复制到您的用户目录；否则，程序将无法运行。

Windows的用户目录是C:\Users\您的用户名，Linux是/home/您的用户名，macOS是/Users/您的用户名。

cp magic-pdf.template.json ~/magic-pdf.json

在您的用户目录中找到magic-pdf.json文件，并将"models-dir"路径配置为指向步骤2中下载的模型权重文件所在的目录。

❗️请确保正确配置模型权重文件目录的绝对路径，否则程序将无法运行，因为找不到模型文件。

在Windows上，此路径应包括驱动器字母，并且路径中的所有反斜杠（\）应替换为正斜杠（/），以避免JSON文件中由于转义序列导致的语法错误。

例如：如果模型存储在D盘根目录的"models"文件夹中，"model-dir"的值应为D:/models。

{
  // 其他配置
  "models-dir": "D:/models",
  "table-config": {
        "is_table_recog_enable": false, // 表格识别默认关闭，修改此值可启用
        "max_time": 400
    }
}

使用GPU

如果您的设备支持CUDA并满足主线环境的GPU要求，您可以使用GPU加速。请根据您的系统选择合适的指南：

使用方法

命令行

magic-pdf --help
用法: magic-pdf [选项]

选项:
  -v, --version                显示版本并退出
  -p, --path PATH              本地PDF文件路径或目录  [必需]
  -o, --output-dir TEXT        输出本地目录
  -m, --method [ocr|txt|auto]  解析PDF的方法。
                               ocr: 使用OCR技术从PDF中提取信息，
                               txt: 仅适用于基于文本的PDF，性能优于ocr，
                               auto: 自动从ocr和txt中选择最佳方法解析PDF。
                               如果未指定方法，默认使用auto。
  --help                       显示此帮助信息并退出


## 显示版本
magic-pdf -v

## 命令行示例
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto

{some_pdf}可以是单个PDF文件或包含多个PDF的目录。结果将保存在{some_output_dir}目录中。输出文件列表如下：

├── some_pdf.md                 # markdown文件
├── images                      # 存储图片的目录
├── layout.pdf                  # 版面图
├── middle.json                 # MinerU中间处理结果
├── model.json                  # 模型推理结果
├── origin.pdf                  # 原始PDF文件
└── spans.pdf                   # 最小粒度bbox位置信息图

有关输出文件的更多信息，请参阅输出文件说明。

API

从本地磁盘处理文件

image_writer = DiskReaderWriter(local_image_dir)
image_dir = str(os.path.basename(local_image_dir))
jso_useful_key = {"_pdf_type": "", "model_list": []}
pipe = UNIPipe(pdf_bytes, jso_useful_key, image_writer)
pipe.pipe_classify()
pipe.pipe_analyze()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

从对象存储处理文件

s3pdf_cli = S3ReaderWriter(pdf_ak, pdf_sk, pdf_endpoint)
image_dir = "s3://img_bucket/"
s3image_cli = S3ReaderWriter(img_ak, img_sk, img_endpoint, parent_path=image_dir)
pdf_bytes = s3pdf_cli.read(s3_pdf_path, mode=s3pdf_cli.MODE_BIN)
jso_useful_key = {"_pdf_type": "", "model_list": []}
pipe = UNIPipe(pdf_bytes, jso_useful_key, s3image_cli)
pipe.pipe_classify()
pipe.pipe_analyze()
pipe.pipe_parse()
md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")

详细实现请参考：

开发指南

待完成

待办事项

已知问题

阅读顺序基于规则分段，某些情况下可能导致顺序混乱
不支持竖排文字
布局模型尚不支持列表、代码块和目录
漫画书、画册、小学教科书和练习册解析效果不佳
启用OCR可能在公式密集的PDF中产生更好的结果
如果您正在处理包含大量公式的PDF，强烈建议启用OCR功能。使用PyMuPDF提取文本时，可能会出现文本行重叠的情况，导致公式插入位置不准确。
表格识别目前处于测试阶段；识别速度较慢，准确度有待提高。以下是在Ubuntu 22.04 LTS + Intel(R) Xeon(R) Platinum 8352V CPU @ 2.10GHz + NVIDIA GeForce RTX 4090环境下的一些性能测试结果，供参考。

表格大小	解析时间
6*5 55kb	37秒
16*12 284kb	3分18秒
44*7 559kb	4分12秒

常见问题

中文常见问题

英文常见问题

感谢所有贡献者

许可证信息

LICENSE.md

本项目目前使用PyMuPDF实现高级功能。然而，由于它遵循AGPL许可证，可能会对某些使用场景造成限制。在未来的迭代中，我们计划探索并替换为更宽松的PDF处理库，以提高用户友好性和灵活性。

致谢

引用

@article{he2024opendatalab,
  title={Opendatalab: Empowering general artificial intelligence with open datasets},
  author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua},
  journal={arXiv preprint arXiv:2407.13773},
  year={2024}
}

@misc{2024mineru,
    title={MinerU: A One-stop, Open-source, High-quality Data Extraction Tool},
    author={MinerU Contributors},
    howpublished = {\url{https://github.com/opendatalab/MinerU}},
    year={2024}
}