分布式数据采集平台

我要开发同款
杰sir2024年04月29日
77阅读
开发技术图像处理、深度学习、爬虫pythonjava
所属分类分布式爬虫、微服务SAAS、分布式调度、数据引擎

作品详情

项目简介:
分布式数据采集平台通过后台配置采集模板的方式定时调度采集任务,可以高效与高质量的采集网站数据,对于常规的有反爬限制的网站,比如IP代理限制与验证码的网站,通过IP代理池与验证码自动识别的方式可绕过反爬网站获取数据。平台业务架构主要分为配置客户端、爬虫引擎和管理监控平台。配置客户端地址管理、内容管理、规则配置、验证码配置等功能;爬虫引擎主要包括数据引擎、分布式调度引擎和反爬引擎等功能组件;管理监控平台调度管理、平台管理、服务监控与打码平台等功能模块。
技术架构:
1、展现层:VUE、NodeJS、D3、Fiddler
2、服务层:Spring Boot、Spring Cloud、Quartz、Drools、Activiti、neo4j、Mybatis、Spring MVC
3、计算层:Scrapy、Numpy、Pandas、xPath、PhantomJS、requests、selenium、Filebeat、Kibana、MongoDB、Kafka、ElasticSearch、Redis、Zookeper
4、数据层:HDFS、Hive、Hbase、Solr、Spark、mysql、minio
5、系统层:CentOS、K8S、docker
项目业绩:
1、负责产品设计、原型设计、架构设计、数据库设计等;
2、负责产品核心代码开发,性能优化;
3、负责项目进度管理及推进,解决核心技术难题,制定核心技术方案。
产品能力:
1、通过配置采集模板的方式定时调度采集任务,实现对网站数据的高效采集;
2、针对常规有反爬限制的网站,采用IP代理池和验证码自动识别的方式,绕过反爬机制,确保数据获取的稳定性和持续性;
3、采用了容器化技术,如Kubernetes和Docker,以及分布式系统架构,确保系统的稳定性、可靠性和扩展性;
4、管理监控平台集成调度管理、平台管理、服务监控和打码平台等功能模块,为用户提供全面的监控和管理支持。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论