Scrapegraph-ai

Scrapegraph-ai

集成大语言模型和图逻辑的网络抓取Python库

ScrapeGraphAI是一款集成大语言模型和图逻辑的高效网络抓取Python库。该库支持多种抓取流程,适用于网站和本地文件,如XML、HTML、JSON和Markdown。用户只需指定需要提取的信息,ScrapeGraphAI即可自动完成。该库易于安装,支持多种自定义配置,适合高级用户和开发者进行数据抓取和分析。

ScrapeGraphAI网络爬虫数据抽取LLMPythonGithub开源项目热门

Scrapegraph-ai 项目介绍

Scrapegraph-ai 是一个创新的网页抓取 Python 库,它结合了大语言模型 (LLM) 和直接图逻辑来创建网站和本地文档(如 XML、HTML、JSON、Markdown 等)的抓取管道。这个项目的独特之处在于它的简单性和强大功能 - 用户只需说明想要提取的信息,库就会自动完成抓取工作。

核心特性

  1. 智能抓取:利用 LLM 理解用户需求,自动设计抓取策略。
  2. 多源支持:不仅可以抓取网页,还支持本地文档的信息提取。
  3. 灵活配置:提供多种抓取管道,适应不同场景需求。
  4. 多语言模型支持:可使用 OpenAI、Groq、Azure、Gemini 等 API,也支持通过 Ollama 使用本地模型。

安装与使用

安装 Scrapegraph-ai 非常简单,只需通过 pip 安装即可:

pip install scrapegraphai playwright install

建议在虚拟环境中安装,以避免与其他库发生冲突。

使用示例

以下是使用 Scrapegraph-ai 的 SmartScraperGraph 进行单页面抓取的简单示例:

import json from scrapegraphai.graphs import SmartScraperGraph graph_config = { "llm": { "api_key": "YOUR_OPENAI_APIKEY", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, } smart_scraper_graph = SmartScraperGraph( prompt="Find some information about what does the company do, the name and a contact email.", source="https://scrapegraphai.com/", config=graph_config ) result = smart_scraper_graph.run() print(json.dumps(result, indent=4))

多样化的抓取管道

Scrapegraph-ai 提供了多种抓取管道,包括:

  • SmartScraperGraph:单页面智能抓取
  • SearchGraph:多页面搜索结果抓取
  • SpeechGraph:网页信息提取并生成音频文件
  • ScriptCreatorGraph:网页信息提取并生成 Python 脚本
  • SmartScraperMultiGraph:多页面并行抓取
  • ScriptCreatorMultiGraph:多页面脚本生成

每种管道都有其特定用途,可以根据不同需求选择合适的管道。

开源贡献

Scrapegraph-ai 是一个开源项目,欢迎社区贡献。项目维护者鼓励用户加入 Discord 服务器讨论改进建议,并遵循项目的贡献指南参与开发。

文档与演示

项目提供了详细的文档和在线演示,方便用户快速上手和深入了解:

项目愿景

Scrapegraph-ai 旨在简化网页抓取过程,使得即使是没有编程经验的用户也能轻松提取所需信息。通过结合 AI 技术,项目希望为数据分析、研究和商业智能等领域提供强大而易用的工具。

结语

Scrapegraph-ai 代表了网页抓取技术的一次创新,它将 AI 的力量与传统抓取技术相结合,为用户提供了一个强大、灵活且易用的工具。无论是对于开发者、数据科学家还是普通用户,Scrapegraph-ai 都提供了一种新的、更智能的方式来获取和处理网络信息。

编辑推荐精选

GPT Plus|Pro充值

GPT Plus|Pro充值

GPT充值

支持 ChatGPT Plus / Pro 充值服务,支付便捷,自动发货,售后可查。

GPT Image 2中文站

GPT Image 2中文站

AI 图片生成平台

GPT Image 2 是面向用户的 AI 图片生成平台,支持文生图、图生图及多模型创意工作流。

Vecbase

Vecbase

你的AI Agent团队

Vecbase 是专为 AI 团队打造的智能工作空间,将数据管理、模型协作与知识沉淀整合于一处。算法、产品与业务在同一平台无缝协同,让从数据到 AI 应用的落地更快一步。

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

nano-banana纳米香蕉中文站

nano-banana纳米香蕉中文站

国内直接访问,限时3折

输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

下拉加载更多