内蒙二期大数据离线指标分析平台

我要开发同款
柯南2024年10月28日
56阅读
开发技术mysql、maven、hadoop、kafka、java
所属分类大数据
参考价格10000.00元

作品详情

项目描述: 本项目基于Hadoop生态圈进行搭建,主要用于处理海量日志数据和业务数据,通过数据采集、清洗、业务筛选、数据处理等流程、最终得到有价值、清晰、直观的数据报表、以便于用户根据数据得到下一步的决策。
技术栈: Flume、Kafka、Hadoop、Hive、Spark、Maxwell、DataX、MySQL、Superset、DolphinScheduler
个人职责:
1、技术选型与框架搭建:评估Hadoop生态群的离线处理框架,最终选定Hive+Spark作为核心组件,搭建起稳定可靠的离线数仓平台。
2、系统架构设计:负责整体架构设计,包括数据采集、数据清洗以及数据处理层的设计与实现,确保系统的高性能和高可用性。
3、业务理解与指标分析:根据用户需要,结合智慧交通常用分析指标,对内蒙东站附近数据进行分析,筛选出适合的离线分析指标。
4、功能研发与测试:负责离线数仓架构搭建,hive数仓指标的开发任务,协助前端同事开发可视化大屏功能。
技术描述:
1. 日志数据通过Nginx 实现负载均衡,将日志数据经由Flume发送到 Kafka ,业务数据存储在 MySQL ;
2. 使用Flume进行了日志采集,通过自定义拦截器对数据进行清洗,以及解决数据的零点漂移问题,并且对落盘到HDFS的小文件问题进行了处理;
3. 首日的业务数据通过DataX实现HDFS和MySQL数据库之间的导入导出,并且对Null存储问题,数据一致性问题进行了解决;
4. 每日的业务数据通过Maxwell将MySQL中的业务数据导入到Kafka,进行增量同步;
5. 数据由Flume进入Kafka,对上游海量数据起到缓冲作用,同时采用多副本加acks=-1来保证数据完整可靠,采用幂等加事务来保证数据的精确一次性;
6. 数仓业务处理过程使用Hive架构+Spark引擎的模式,满足大规模计算的同时有效提高计算效率,针对常见故障进行优化,例如小文件,数据倾斜等;
7. ODS层数据不做处理进行备份,创建分区表同时压缩;DWD层对数据进行清洗,脱敏处理;DIM层用于存放维度数据以及维度退化;DWS层对相同维度相同业务周期的数据进行预聚合;ADS层进行指标的相关分析;
8. 使用DataX将ADS层的数据导入到MySQL中,用Superset对接MySQL,通过仪表盘展示统计分析结果;
9. 把各项操作封装成Shell脚本,使用DolphinScheduler调度Shell脚本,并集成第三方告警平台,实现任务失败通知;
10. 使用Cloudera Manager监控集群的各个组件的健康状况。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论