点击空白处退出提示
实时处理平台(2017.05-2017.11)
我要开发同款作品详情
开发环境:Eclipse、JDK1.7
主要技术:Log4j、Flume、Kafka、Storm、Mysql、Hbase
项目介绍:
监控比价项目中爬虫的爬行能力、每天的抓取数量、抓取一个网站需要的时间、还
有抓取失败的商品数据等指标信息,项目中使用Flume、Kafka、Storm实现一个流式处理
平台。
项目主要分5个模块:日志数据收集层、数据缓存层、数据处理层、指标展现层、
数据备份层。
1、日志数据收集层:在每台爬虫机器上部署一个Flume Agent,负责采集爬虫日志
信息,并发送给Kafka集群。
2、数据缓存层:使用Kafka接收Flume的日志信息并缓存,等待Storm处理。
3、数据处理层:主要是Storm实现,对日志信息处理,统计关键性指标做汇总,定时的存入MySql中,供Web界面统计出图表。
4、指标展现层:主要使用Echarts出图表。
5、数据备份层:目的是对爬虫的原始数据进行备份。
项目问题:
Storm重复消费数据问题,Storm和Kafka整合log4j实现冲突问题,为了提高Storm Bolt并行度在最终汇总出现数据不一致问题,使用zookeeper分布式共享锁解决。
职责描述:负责平台环境搭建,编写Storm代码统计具体的指标存入Mysql。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论