CrawlerDemon是垂直应用爬虫,基于akka+okHttp+spring+jsoup,配置简单,上手容易,支持配置动态参数,动态代理,http自动重试。
特点基于akka高性能分布式框架
使用spring配置请求参数
自动管理代理地址Ip,http请求重试,超过重复次数丢弃请求
针对任务请求,任务响应实现过滤(需要根据自己业务实现过滤逻辑)
配置多数据源存储抓取数据自由选择入库
系统核心组件task 生成请求任务,填写请求的url,页面编码,header,parma参数
actor具体抓取actor,处理taskRequest的请求转发,页面分页,taskResponse过滤
parse解析具体页面内容,写库操作。
评论