ArchiveBox 自托管互联网归档开源项目

我要开发同款
匿名用户2021年07月20日
52阅读
开发技术PythonHTML/CSS
所属分类数据备份、管理和监控
授权协议MIT

作品详情

ArchiveBox是一个强大的、自我托管的互联网归档解决方案,可以收集、保存和查看你想离线保存的网站。

你可以在Linux、macOS和Windows上将其设置为命令行工具、网络应用和桌面应用(alpha)。

你可以一次给它提供一个URL,或者安排定期从浏览器书签或历史记录、RSS等提要、Pocket/Pinboard等书签服务等定期导入。它以多种格式保存你提供的URL的快照:HTML、PDF、PNG屏幕截图、WARC等开箱即用,并自动提取和保存各种内容(文章文本、音频/视频、gitrepos等)。

其目标是将用户所关心的互联网部分以持久的、易于访问的格式自动保存下来,直到它消失后的几十年。

特性:

免费和开放源代码,不需要注册任何东西,所有数据都存储在本地强大的、直观的命令行界面,具有模块化的可选依赖性全面的文档、活跃的开发和丰富的社区开箱即可提取各种内容:媒体(优酷-DL)、文章(可读性)、代码(Git)等。支持从多种类型的来源按计划/实时导入使用标准、持久、长期的格式,如HTML、JSON、PDF、PNG和WARC可作为一次性CLI、自我托管的WebUI、PythonAPI(BETA)、RESTAPI(ALPHA)或桌面应用程序(ALPHA)使用默认情况下将所有页面保存到archive.org,以实现冗余(可以禁用本地模式)。计划中:支持需要登录/付费墙/cookies的归档内容(正在运行,但在一些有待修复的问题发布之前,不建议使用)。计划中:支持在归档过程中运行JS,如广告屏蔽、自动滚动、模式隐藏、线程扩展等。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论