ThePipe：强大的多模态数据提取工具

thepipe

ThePipe：为AI应用提供强大的多模态数据输入

在人工智能快速发展的今天，大语言模型(LLM)和视觉语言模型等多模态AI模型正在展现出惊人的能力。但是，如何高效地从各种复杂的数据源中提取出这些模型所需的高质量输入，一直是一个挑战。ThePipe应运而生，它是一款革命性的API工具，能够从PDF、网页、视频等多种来源中提取结构化数据和多模态内容，为AI模型提供理想的输入。让我们深入了解这个强大工具的方方面面。

ThePipe的核心功能

ThePipe提供了两个主要的API功能:

thepipe.scrape: 用于从各种来源抓取多模态数据。
thepipe.extract: 用于从各种来源提取结构化数据。

这两个功能都是为了与视觉语言模型(如GPT-4V)无缝对接而设计的，同时也可以轻松地与任何LLM或向量数据库配合使用。ThePipe可以通过云托管服务直接使用，也可以在本地运行。

ThePipe的主要特性 🌟

多源数据提取: ThePipe可以从任何文档或网页中提取markdown、表格和图像。
结构化数据提取: 它能够从任何文档或网页中提取复杂的结构化数据。
广泛兼容性: ThePipe可以与LLM、向量数据库和RAG框架无缝配合。
AI驱动的智能处理: 它采用AI技术进行文件类型检测、布局分析和结构化数据提取。
多模态数据处理: ThePipe支持从视频、音频和图像源中进行多模态数据抓取。

ThePipe功能示意图

快速上手指南 🚀

ThePipe的设计理念是让用户能够在5分钟内开始使用。由于它支持广泛的文件类型和网络源，因此需要一些依赖项。同时，AI提取功能还需要视觉语言模型推理。考虑到这些因素，官方提供了一个开箱即用的API托管服务。

使用托管API（Python）

首先，在thepi.pe注册一个免费账号以获取API密钥。
设置环境变量THEPIPE_API_KEY为你的API密钥。
使用以下代码示例开始使用：

from thepipe.scraper import scrape_file
from thepipe.core import chunks_to_messages
from openai import OpenAI

# 抓取清洁的markdown
chunks = scrape_file(filepath="paper.pdf", ai_extraction=False)

# 使用抓取的chunks调用LLM
client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4v",
    messages=chunks_to_messages(chunks),
)

本地安装（Python）

如果你希望在本地运行ThePipe，可以按照以下步骤操作：

安装ThePipe：
```
pip install thepipe-api[local]
```
设置本地LLM服务器，并配置相关环境变量：
- LLM_SERVER_BASE_URL: LLM服务器的端点URL
- LLM_SERVER_API_KEY: LLM的API密钥
- DEFAULT_AI_MODEL: 使用的LLM模型名称

安装额外依赖（用于处理富媒体源）：

apt-get update && apt-get install -y git ffmpeg tesseract-ocr
python -m playwright install --with-deps chromium

使用时，在函数调用中添加local=True参数：

chunks = scrape_url(url="https://example.com", local=True)

ThePipe还提供了命令行接口，可以直接处理文件夹：

thepipe path/to/folder --include_regex .*\.tsx --local

支持的文件类型 📚

ThePipe支持广泛的文件类型和数据源，包括但不限于：

网页（HTTP、HTTPS、FTP）
PDF文件
Word文档（.docx）
PowerPoint演示文稿（.pptx）
视频文件（.mp4、.mov、.wmv）
音频文件（.mp3、.wav）
Jupyter笔记本（.ipynb）
电子表格（.csv、.xls、.xlsx）
纯文本文件（.txt、.md、.rtf等）
图像文件（.jpg、.jpeg、.png）
ZIP压缩文件
目录
YouTube视频
Twitter推文
GitHub仓库

ThePipe支持的文件类型

每种文件类型都有其特定的处理方式。例如，对于网页，ThePipe会抓取markdown、图像和表格；对于PDF文件，它会提取每页的markdown和图像；对于视频文件，它使用Whisper进行转录并提取关键帧。

ThePipe的工作原理 🛠️

ThePipe采用计算机视觉模型和启发式算法从源文档中提取干净的内容，并为下游的语言模型或视觉变换器进行处理。ThePipe的输出是一个包含源文档所有内容的块列表。这些块可以通过thepipe.core.chunks_to_messages轻松转换为与任何LLM或多模态模型兼容的提示格式。

输出格式示例：

[
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "..."
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/jpeg;base64,..."
        }
      }
    ]
  }
]

这些消息可以直接输入到模型中，或者使用chunker.chunk_by_document、chunker.chunk_by_page、chunker.chunk_by_section、chunker.chunk_semantic等方法将这些消息分块，以用于向量数据库（如ChromaDB）或RAG框架。每个块都可以通过.to_llamaindex方法转换为LlamaIndex的Document/ImageDocument。