网络存档是收集部分万维网内容的过程,以确保信息被保存在档案中供未来的研究者、历史学家和公众使用。由于网络规模庞大,网络档案管理员通常使用网络爬虫进行自动采集。不断发展的网络标准要求存档工具持续演进,以跟上网络技术的变化,确保可靠且有意义地采集和重现存档的网页。
这些资源可以帮助与在网上发布内容并希望确保其网站可以被存档的个人或组织合作。
这份工具和软件列表旨在简要描述一些最重要和广泛使用的与网络存档相关的工具。有关更多详细信息,我们建议您参考(并贡献!)来自其他群体的这些优秀资源:
webarchive-discovery wiki的这里。ArchiveTools - 用于提取和处理WARC文件的工具集合(Python)。
cdx-toolkit - 用于查询cdx索引和创建WARC子集提取的库和命令行工具。抽象化了Common Crawl的特殊爬取结构。(稳定)
Go Get Crawl - 使用Wayback Machine和Common Crawl提取网络存档数据。(稳定)
gowarcserver - 基于BadgerDB的捕获索引(CDX)和WARC记录服务器,用于索引和提供WARC文件(Go)。
har2warc - 将HTTP存档(HAR)转换为Web存档(WARC)格式(Python)。
httpreserve.info - 返回网页状态或将其保存到Internet Archive的服务。HTTPreserve包括对知名短链接服务的消歧。它通过浏览器或使用GET的CURL命令行返回JSON。使用Internet Archive中的最早和最新日期描述网站,并在其输出中演示使用该范围构建Robust Links。(Golang)(稳定)
HTTPreserve linkstat - httpreserve.info的命令行实现,用于描述网页状态。可以轻松编写脚本,并提供JSON输出,以便通过JQ等工具进行查询。HTTPreserve Linkstat描述当前状态,以及archive.org上的最早和最新链接。(Golang)(稳定)
Internet Archive Library - 用于直接与archive.org交互的命令行工具和Python库。(Python)(稳定)
httrack2warc - 将HTTrack存档转换为WARC格式(Java)。
MementoMap - 用于总结Web存档内容的工具(Python)。(开发中)
MemGator - Memento聚合器CLI和服务器(Golang)。(稳定)
OutbackCDX - 基于RocksDB的捕获索引(CDX)服务器,支持增量更新和压缩。可用作OpenWayback、PyWb和Heritrix的后端。(稳定)
py-wasapi-client - 用于从WASAPI下载爬虫内容的命令行应用程序(Python)。(稳定)
The Archive Browser - The Archive Browser是一个允许你浏览存档内容并提取它们的程序。它可以让你打开存档中的文件,并使用Quick Look预览它们。支持WARC(仅限macOS,专有应用程序)。
The Unarchiver - 用于将多种存档格式(包括WARC)的内容提取到文件系统的程序。The Archive Browser的免费版本(仅限macOS,专有应用程序)。
tikalinkextract - 从Apache Tika可以解析的文档类型文件夹中提取超链接,作为网络存档的种子(Golang,Apache Tika服务器)。(开发中)
wasapi-downloader - 用于从WASAPI下载爬虫内容的Java命令行应用程序。(稳定)
Warchaeology - Warchaeology是用于检查、操作、去重和验证WARC文件的工具集合。稳定
warcdb - 用于将WARC文件导入SQLite数据库的命令行工具(Python)。(稳定)
warcdedupe - 用Rust编写的WARC去重工具(和WARC库)。(开发中)
warc-safe - WARC文件中病毒和NSFW内容的自动检测。
WarcPartitioner - 按MIME类型和年份对(W)ARC文件进行分区。(稳定)
warcrefs - Web存档去重工具。稳定
webarchive-indexing - 用于在Hadoop、EMR或本地文件系统上批量索引WARC/ARC文件的工具。
wikiteam - 用于下载和保存维基的工具。(稳定版)
*.warc.gz)的可分割Hadoop InputFormat。(稳定)我们的目的是只列出允许以标准格式(WARC或WACZ)导出网络存档的服务。但这并不是对这些服务的认可,读者应根据自己的需求检查和评估这些选项。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号