项目简介:使用Flume统一接收公司各个部门的日志,输出到 kafka中,在 kafka中对日志进行清洗,将清洗后的数据
分两个方向,一是存储到 hive中,供报表服务使用,二是存储到Elasticsearch中,供日志查看功能使用。在入库的同
时监控日志内容,通过内容的变更实现预警管理;使用 presto对 hive和 mysql中的数据进行联合计算,生成报表数据
,存入 hive中,同时提供报表服务的查询接口。后续版本去除hive部分,报表相关的计算直接使用Flink SQL流处理系
统进行计算,框架更加简单,数据处理的实时性也有明显的提高。
项目职责:
A.CDH6的环境搭建
B.对 kafka中的数据进行清洗,整理
C.将清洗后的日志存入 hive
D.对库中的日志进行分析,计算报表
E.提供报表服务查询接口(es、presto)
F.Flink流处理相关功能的开发(报表、预警)