1、介绍:自主设计和开发的高效爬虫系统,由前端服务、后端管理服务和爬虫调度服务三部分组成,实现了任务管理、任务调度、数据采集、数据清洗和存储、数据下载等功能。2、主要功能:1)任务管理:可选择服务,配置单次、定时、间隔、手动调度方式,选择容器或本地环境执行,保存任务配置信息并发布;2)任务调度:根据任务配置信息进行调度并执行,通过服务管理器初始化任务并启动,通过回调管理端实现任务状态更新;3)数据采集:可扩展的分布式爬虫系统,可定制化开发任意爬虫,注册到服务管理器后即可经过前端进行任务配置;4)数据清洗和存储:通用的数据清洗框架,可针对每个任务定制化开发数据清洗任务,并可选多种数据格式进行存储;5)数据下载:任务批次完成后经清洗后的数据保存在云端,可供随时下载。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论