CrawlerDemon 分布式爬虫开源项目

我要开发同款
匿名用户2015年10月14日
49阅读
开发技术Java
所属分类应用工具、网络爬虫
授权协议GPL

作品详情

CrawlerDemon是垂直应用爬虫,基于akka+okHttp+spring+jsoup,配置简单,上手容易,支持配置动态参数,动态代理,http自动重试。

特点

基于akka高性能分布式框架

使用spring配置请求参数

自动管理代理地址Ip,http请求重试,超过重复次数丢弃请求

针对任务请求,任务响应实现过滤(需要根据自己业务实现过滤逻辑)

配置多数据源存储抓取数据自由选择入库

系统核心组件

task 生成请求任务,填写请求的url,页面编码,header,parma参数

actor具体抓取actor,处理taskRequest的请求转发,页面分页,taskResponse过滤

parse解析具体页面内容,写库操作。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论