LLM Scraper: 利用人工智能技术将网页转化为结构化数据

llm-scraper

LLM Scraper: 网页数据抓取的革新利器 🚀

在当今数字时代,网页数据抓取已成为许多企业和研究机构不可或缺的技术。然而,传统的网页抓取方法往往面临着效率低下、难以适应复杂网页结构等挑战。幸运的是,随着人工智能技术的飞速发展,一种全新的网页数据抓取解决方案应运而生 —— LLM Scraper。

LLM Scraper简介

LLM Scraper是由开发者Mish Ushakov创建的一个开源TypeScript库,它巧妙地结合了大型语言模型(LLMs)的强大能力与网页抓取技术。这个创新工具的核心目标是让开发者能够轻松地从任何网页中提取结构化数据,无论该网页的结构有多复杂。

LLM Scraper示例

核心特性

LLM Scraper拥有一系列强大的特性,使其在网页数据抓取领域脱颖而出:

多样化的LLM支持: 支持本地模型(如Ollama、GGUF)、OpenAI以及Vercel AI SDK提供的各种大型语言模型。
Zod schema定义: 使用Zod库来定义数据结构,确保提取的数据符合预期格式。
TypeScript全面支持: 提供完整的类型安全性,大大减少开发过程中的错误。
基于Playwright框架: 利用Playwright的强大功能,实现稳定可靠的网页交互和数据提取。
流式对象处理: 支持数据的流式处理,适用于大规模数据抓取场景。
代码生成功能: 新增的代码生成功能,可以自动生成可重用的Playwright脚本。
多种格式支持: 支持HTML、Markdown、纯文本以及图像截图等多种数据格式。

工作原理

LLM Scraper的核心工作原理是利用函数调用来将网页转换为结构化数据。它首先使用Playwright框架加载目标网页,然后将网页内容传递给选定的大型语言模型。LLM通过理解网页内容和预定义的数据结构(schema),智能地提取所需信息,并将其转换为结构化的JSON格式数据。

使用示例

以下是一个使用LLM Scraper从Hacker News网站提取热门故事的简单示例:

import { chromium } from 'playwright'
import { z } from 'zod'
import { openai } from '@ai-sdk/openai'
import LLMScraper from 'llm-scraper'

// 启动浏览器实例
const browser = await chromium.launch()

// 初始化LLM提供者
const llm = openai.chat('gpt-4o')

// 创建LLMScraper实例
const scraper = new LLMScraper(llm)

// 打开新页面
const page = await browser.newPage()
await page.goto('https://news.ycombinator.com')

// 定义数据提取schema
const schema = z.object({
  top: z
    .array(
      z.object({
        title: z.string(),
        points: z.number(),
        by: z.string(),
        commentsURL: z.string(),
      })
    )
    .length(5)
    .describe('Top 5 stories on Hacker News'),
})

// 运行scraper
const { data } = await scraper.run(page, schema, {
  format: 'html',
})

// 输出结果
console.log(data.top)

await page.close()
await browser.close()