awesome-web-archiving

awesome-web-archiving

网络存档工具和资源汇总

该项目汇集了网络存档领域的各类工具、软件和资源。涵盖网页获取、回放、搜索和分析等环节,覆盖了网络存档的完整流程。包含开源软件、培训材料和社区资源,为网络档案管理员、研究人员和开发者提供参考。项目内容全面,适合不同经验水平的用户查阅和使用。

Web archivingWARC网络爬虫数据采集数字保存Github开源项目

令人惊叹的网络存档 Awesome

网络存档是收集部分万维网内容的过程,以确保信息被保存在档案中供未来的研究者、历史学家和公众使用。由于网络规模庞大,网络档案管理员通常使用网络爬虫进行自动采集。不断发展的网络标准要求存档工具持续演进,以跟上网络技术的变化,确保可靠且有意义地采集和重现存档的网页。

目录

培训/文档

面向网络出版者的资源

这些资源可以帮助与在网上发布内容并希望确保其网站可以被存档的个人或组织合作。

工具和软件

这份工具和软件列表旨在简要描述一些最重要和广泛使用的与网络存档相关的工具。有关更多详细信息,我们建议您参考(并贡献!)来自其他群体的这些优秀资源:

采集

  • ArchiveBox - 一个使用wget、Chrome无头浏览器和其他方法从RSS源、书签和链接维护增量存档的工具(原名"Bookmark Archiver")。(开发中)
  • archivenow - 一个Python库,用于将网络资源推送到按需网络存档中。(稳定版)
  • ArchiveWeb.Page - 一个适用于Chrome和其他基于Chromium的浏览器的插件,可以交互式地存档网页、回放它们,并将其导出为WARC数据。也可作为基于Electron的桌面应用程序使用。
  • Auto Archiver - Python脚本,用于自动存档Google Sheets文档中的社交媒体帖子、视频和图像。阅读bellingcat.com上关于Auto Archiver的文章
  • Browsertrix Crawler - 基于Chromium的高保真爬虫系统,设计用于在单个Docker容器中运行复杂、可定制的基于浏览器的爬虫。(稳定版)
  • Brozzler - 一个分布式网络爬虫,使用真实浏览器(Chrome或Chromium)获取页面和嵌入的URL并提取链接。(稳定版)
  • Cairn - 用于保存网页的npm包和CLI工具。(稳定版)
  • Chronicler - 具有记录和回放功能的网络浏览器。(开发中)
  • crau - crau是大多数巴西人发音"crawl"的方式,它是最简单的命令行工具,用于存档网页和播放存档:你只需要一个URL列表。(稳定版)
  • Crawl - 一个用Golang编写的简单网络爬虫。(稳定版)
  • crocoite - 使用无头Google Chrome/Chromium爬取网站,并将资源、静态DOM快照和页面截图保存到WARC文件中。(开发中)
  • DiskerNet - 一个非基于WARC的工具,它挂钩到Chrome浏览器并存档你浏览的所有内容,使其可以离线回放。(开发中)
  • F(b)arc - 一个命令行工具和Python库,使用Graph APIFacebook存档数据。(稳定版)
  • freeze-dry - JavaScript库,用于将页面转换为静态、自包含的HTML文档;对浏览器扩展有用。(开发中)
  • grab-site - 档案员的网络爬虫:WARC输出,所有爬虫的仪表板,动态忽略模式。(稳定版)
  • Heritrix - 一个开源、可扩展、网络规模的存档质量网络爬虫。(稳定版)
  • html2warc - 一个简单的脚本,用于将离线数据转换为单个WARC文件。(稳定版)
  • HTTrack - 一个开源网站复制工具。(稳定版)
  • monolith - 将网页保存为单个HTML文件的CLI工具。(稳定版)
  • Obelisk - Go包和CLI工具,用于将网页保存为单个HTML文件。(稳定版)
  • Scoop - 高保真、基于浏览器的单页网页存档库和CLI工具,用于见证网络。(稳定版)
  • SingleFile - Firefox/Chrome浏览器扩展和CLI工具,用于将完整页面的忠实副本保存为单个HTML文件。(稳定版)
  • SiteStory - 一个事务性存档,选择性地捕获和存储发生在网络客户端(浏览器)和网络服务器之间的事务。(稳定版)
  • Social Feed Manager - 开源软件,使用户能够从Twitter、Tumblr、Flickr和新浪微博公共API创建社交媒体集合。(稳定版)
  • Squidwarc - 一个开源、高保真、页面交互的存档爬虫,直接使用Chrome或Chrome无头浏览器。(开发中)
  • StormCrawler - 一套用于在Apache Storm上构建低延迟、可扩展网络爬虫的资源集合。(稳定)
  • twarc - 一个用于存档Twitter JSON数据的命令行工具和Python库。(稳定)
  • WAIL - 一个图形用户界面(GUI),集成了多种网页存档工具,旨在为任何人提供一种简单的方式来保存和重放网页;Python版Electron版(稳定)
  • Warcprox - 一个可写入WARC文件的中间人HTTP/S代理。(稳定)
  • WARCreate - 一个Google Chrome扩展,用于将单个网页或网站存档为WARC文件。(稳定)
  • Warcworker - 一个开源的、容器化的、基于队列的、高保真的网页存档器,基于Squidwarc,带有简单的Web图形界面。(稳定)
  • Wayback - 一个工具包,用于将网页快照保存到Internet Archive、archive.today、IPFS等平台。(稳定)
  • Waybackpy - Wayback Machine的保存、CDX和可用性API接口,提供Python库和命令行工具。(稳定)
  • Web2Warc - 一个易于使用且高度可定制的爬虫,使任何人都能创建自己的小型网页档案(WARC/CDX)。(稳定)
  • Web Curator Tool - 用于选择性网页存档的开源工作流管理工具。(稳定)
  • WebMemex - Firefox和Chrome的浏览器扩展,允许你存档你访问的网页。(开发中)
  • Wget - 一个开源文件检索工具,从1.14版本开始支持写入WARC文件(稳定)
  • Wget-lua - 带有Lua扩展的Wget。(稳定)
  • Wpull - 一个与Wget兼容的(或重制/克隆/替代)网页下载器和爬虫。(稳定)

回放

  • InterPlanetary Wayback (ipwb) - 使用IPFS进行Web存档(WARC)索引和回放。
  • OpenWayback - 旨在开发Wayback Machine的开源项目,这是全球网络档案馆用于在用户浏览器中回放已存档网站的关键软件。(稳定版)
  • PYWB - 网络存档回放工具的Python 3实现,有时也被称为"Wayback Machine"。(稳定版)
  • Reconstructive - Reconstructive是一个ServiceWorker模块,用于客户端重构复合回忆,通过将资源请求重新路由到相应的存档副本(JavaScript)。
  • ReplayWeb.page - 一个基于浏览器的、完全客户端的回放引擎,适用于本地和远程WARC和WACZ文件。(稳定版)
  • warc2html - 将WARC文件转换为适合离线浏览或重新托管的静态HTML。

搜索与发现

  • Mink - 一个Google Chrome扩展,用于在浏览时查询Memento聚合器并集成实时-存档网络导航。(稳定版)
  • playback - 用于从Internet Archivearchive.todayMemento等地方搜索已存档网页的工具包。(开发中)
  • SecurityTrails - 基于Web的WHOIS和DNS记录存档。REST API可免费使用。
  • Tempas v1 - 基于Delicious标签的时间网络存档搜索。(稳定版)
  • Tempas v2 - 基于从1996年到2013年德国网络中提取的链接和锚文本的时间网络存档搜索(结果不限于德语页面,例如,Tempas中的Obama@2005-2009)。(稳定版)
  • webarchive-discovery - WARC和ARC全文索引和发现工具,以及一些能够使用该索引的相关工具,如下所示。(稳定版)
    • Shine - 一个网络档案探索UI原型,作为英国大型领域数据艺术与人文项目的一部分与研究人员共同开发。(稳定版)
    • SolrWayback - 一个后端Java和前端VUE JS项目,具有全文搜索和内置回放引擎。要求Warc文件已经用Warc-Indexer进行了索引。该Web应用还有多种数据可视化工具和数据导出工具,可用于整个网络存档。SolrWayback 4捆绑版本包含了所有软件和依赖项,是一个易于安装的开箱即用解决方案。
    • Warclight - 一个基于Project Blacklight的Rails引擎,支持发现以WARC和ARC格式存储的网络存档。(开发中)
    • Wasp - 一个功能完备的个人网络存档和搜索系统原型。(开发中)
    • 构建前端的其他可能选项列在webarchive-discovery wiki的这里

工具

  • ArchiveTools - 用于提取和处理WARC文件的工具集合(Python)。

  • cdx-toolkit - 用于查询cdx索引和创建WARC子集提取的库和命令行工具。抽象化了Common Crawl的特殊爬取结构。(稳定)

  • Go Get Crawl - 使用Wayback MachineCommon Crawl提取网络存档数据。(稳定)

  • gowarcserver - 基于BadgerDB的捕获索引(CDX)和WARC记录服务器,用于索引和提供WARC文件(Go)。

  • har2warc - 将HTTP存档(HAR)转换为Web存档(WARC)格式(Python)。

  • httpreserve.info - 返回网页状态或将其保存到Internet Archive的服务。HTTPreserve包括对知名短链接服务的消歧。它通过浏览器或使用GET的CURL命令行返回JSON。使用Internet Archive中的最早和最新日期描述网站,并在其输出中演示使用该范围构建Robust Links。(Golang)(稳定)

  • HTTPreserve linkstat - httpreserve.info的命令行实现,用于描述网页状态。可以轻松编写脚本,并提供JSON输出,以便通过JQ等工具进行查询。HTTPreserve Linkstat描述当前状态,以及archive.org上的最早和最新链接。(Golang)(稳定)

  • Internet Archive Library - 用于直接与archive.org交互的命令行工具和Python库。(Python)(稳定)

  • httrack2warc - 将HTTrack存档转换为WARC格式(Java)。

  • MementoMap - 用于总结Web存档内容的工具(Python)。(开发中)

  • MemGator - Memento聚合器CLI和服务器(Golang)。(稳定)

  • node-cdxj - CDXJ文件解析器(Node.js)。(稳定)

  • OutbackCDX - 基于RocksDB的捕获索引(CDX)服务器,支持增量更新和压缩。可用作OpenWayback、PyWb和Heritrix的后端。(稳定)

  • py-wasapi-client - 用于从WASAPI下载爬虫内容的命令行应用程序(Python)。(稳定)

  • The Archive Browser - The Archive Browser是一个允许你浏览存档内容并提取它们的程序。它可以让你打开存档中的文件,并使用Quick Look预览它们。支持WARC(仅限macOS,专有应用程序)。

  • The Unarchiver - 用于将多种存档格式(包括WARC)的内容提取到文件系统的程序。The Archive Browser的免费版本(仅限macOS,专有应用程序)。

  • tikalinkextract - 从Apache Tika可以解析的文档类型文件夹中提取超链接,作为网络存档的种子(Golang,Apache Tika服务器)。(开发中)

  • wasapi-downloader - 用于从WASAPI下载爬虫内容的Java命令行应用程序。(稳定)

  • Warchaeology - Warchaeology是用于检查、操作、去重和验证WARC文件的工具集合。稳定

  • warcdb - 用于将WARC文件导入SQLite数据库的命令行工具(Python)。(稳定)

  • warcdedupe - 用Rust编写的WARC去重工具(和WARC库)。(开发中)

  • warc-safe - WARC文件中病毒和NSFW内容的自动检测。

  • WarcPartitioner - 按MIME类型和年份对(W)ARC文件进行分区。(稳定)

  • warcrefs - Web存档去重工具。稳定

  • webarchive-indexing - 用于在Hadoop、EMR或本地文件系统上批量索引WARC/ARC文件的工具。

  • wikiteam - 用于下载和保存维基的工具。(稳定版)

WARC I/O 库

  • FastWARC - 高性能WARC解析库(Python)。
  • HadoopConcatGz - 用于连接GZIP文件(以及*.warc.gz)的可分割Hadoop InputFormat。(稳定)
  • jwarc - 使用类型安全API读写WARC文件(Java)。
  • Jwat - 用于读取/写入/验证WARC/ARC/GZIP文件的库(Java)。(稳定)
  • Jwat-Tools - 用于读取/写入/验证WARC/ARC/GZIP文件的工具(Java)。(稳定)
  • node-warc - 使用Electronchrome-remote-interface解析WARC文件或创建WARC文件(Node.js)。(稳定)
  • Sparkling - 互联网档案馆的Sparkling数据处理库。(稳定)
  • Unwarcit - 用于解压WARC和WACZ文件的命令行界面(Python)。
  • Warcat - 处理Web存档(WARC)文件的工具和库(Python)。(稳定)
  • warcio - 用于快速Web存档IO的流式WARC/ARC库(Python)。(稳定)
  • warctools - 用于处理ARC和WARC文件的库(Python)。
  • webarchive - 用于ARC和WARC网络存档格式的Golang读取器(Golang)。

分析

质量保证

  • Chrome Check My Links - 浏览器扩展:一个具有更多选项的链接检查器。
  • Chrome link checker - 浏览器扩展:基本链接检查器。
  • Chrome link gopher - 浏览器扩展:页面链接收集器。
  • Chrome Open Multiple URLs - 浏览器扩展:打开多个URL,并从文本中提取URL。
  • Chrome Revolver - 浏览器扩展:在浏览器标签之间切换。
  • FlameShot - Ubuntu上的屏幕捕获和标注工具。
  • PlayOnLinux - 用于在Ubuntu上运行Xenu和Notepad++。
  • PlayOnMac - 用于在macOS上运行Xenu和Notepad++。
  • Windows 截图工具 - Windows内置的部分屏幕捕获和标注工具。在macOS上可以使用Command + Shift + 4(部分屏幕捕获的键盘快捷键)。
  • WineBottler - 用于在macOS上运行Xenu和Notepad++。
  • xDoTool - Ubuntu上的点击自动化工具。
  • Xenu - Windows桌面链接检查器。

内容管理

社区资源

其他优秀列表

博客和学术资源

邮件列表

Slack

Twitter

网络存档服务提供商

我们的目的是只列出允许以标准格式(WARC或WACZ)导出网络存档的服务。但这并不是对这些服务的认可,读者应根据自己的需求检查和评估这些选项。

可自托管的开源项目

托管的闭源服务

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多