点击空白处退出提示
作品详情
开发环境:Eclipse、Mysql、Maven、Jdk
主要技术:
实时:Storm、Kafka、Mysql
离线分析:Flume、Hdfs、MapReduce、Redis、Hive、Sqoop、kettle、Mysql
项目介绍:
根据网站的Access、UGC日志,分App维度、总的,离线统计每天的UV、PV、登录人数、次日留存和七日留存。根据用户实时产生的UGC日志,分App维度、总的,实时统计用户每分钟一次的充值和消费情况 。
离线分析:整个离线处理流程使用kettle监控任务并调度。
1、数据采集:将用户的Access、Ugc等日志通过Flume采集,按天和业务分目录存储到HDFS上。
2、数据清洗:每天定时通过MR清洗前一天的原始日志数据,Load到Hive表中。
3、数据分析:编写Hive语句和Shell脚本统计指标,并将统计之后的指标使用Sqoop导入到Mysql,使用Kettle将Mysql中与hive表对应的各个维度表整合到一张报表
实时统计:
Web服务器实时发送用户的消费、充值数据到Kafka集群,Storm使用KafkaSpout去Kafka中实时消费数据,然后每分钟计算统计结果并存入Mysql中。
职责描述:
参与前期项目分析,负责编写MR对原始数据清洗并加载到Hive表。负责编写hive
语句,shell脚本对离线数据处理。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论