云爬虫项目

我要开发同款
proginn18580799122024年03月14日
52阅读
开发技术多进程、多线程、javaJava爬虫
所属分类分布式

作品详情

以满足电商情报爬取需求为核心,能够支撑全集团爬取需求的通用分布式垂直网络爬虫系统。支持大规模集群化抓取,模板化配置抓取流程,自动破解网站抓取封锁等功能
担任技术经理,负责架构设计、技术调研,并独立设计实现了以下多个核心功能模块:以线程为单位的分布式任务调度框架Spider-Yarn,基于Spider-yarn之上的爬虫任务调度、执行模块,以及ADSL动态防封系统。目前集群规模接近2000个节点,抓取日pv15亿以上
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论