前提条件:python3.10
安装依赖
linux/osx
apt-get/yum/brew install libreoffice
windows
安装 libreoffice 将 "安装目录\LibreOffice\program" 添加到环境变量 PATH 中
安装 Magic-Doc
pip install fairy-doc[cpu] # CPU 版本 或 pip install fairy-doc[gpu] # GPU 版本
Magic-Doc 是一个轻量级开源工具,允许用户将多种文件类型(PPT/PPTX/DOC/DOCX/PDF)转换为 Markdown。它支持本地文件和 S3 文件。
# 对于本地文件 from magic_doc.docconv import DocConverter, S3Config converter = DocConverter(s3_config=None) markdown_content, time_cost = converter.convert("some_doc.pptx", conv_timeout=300)
# 对于存储在 AWS S3 的远程文件 from magic_doc.docconv import DocConverter, S3Config s3_config = S3Config(ak='${ak}', sk='${sk}', endpoint='${endpoint}') converter = DocConverter(s3_config=s3_config) markdown_content, time_cost = converter.convert("s3://some_bucket/some_doc.pptx", conv_timeout=300)
环境:AMD EPYC 7742 64核处理器,NVIDIA A100,Centos 7
文件类型 | 速度 |
---|---|
PDF(数字) | 347(页/秒) |
PDF(OCR) | 2.7(页/秒) |
PPT | 20(页/秒) |
PPTX | 149(页/秒) |
DOC | 600(页/秒) |
DOCX | 1482(页/秒) |
@misc{2024magic-doc, title={Magic-Doc: 一个将多种文件类型转换为Markdown的工具包}, author={Magic-Doc 贡献者}, howpublished = {\url{https://github.com/InternLM/magic-doc}}, year={2024} }
本项目采用 Apache 2.0 许可证。
<p align="right"><a href="#top">🔼 返回顶部</a></p>