内蒙二期大数据离线指标分析平台

项目描述: 本项目基于Hadoop生态圈进行搭建，主要用于处理海量日志数据和业务数据，通过数据采集、清洗、业务筛选、数据处理等流程、最终得到有价值、清晰、直观的数据报表、以便于用户根据数据得到下一步的决策。技术栈: Flume、Kafka、Hadoop、Hive、Spark、Maxwell、DataX、MySQL、Superset、DolphinScheduler 个人职责: 1、技术选型与框架搭建：评估Hadoop生态群的离线处理框架，最终选定Hive+Spark作为核心组件，搭建起稳定可靠的离线数仓平台。2、系统架构设计：负责整体架构设计，包括数据采集、数据清洗以及数据处理层的设计与实现，确保系统的高性能和高可用性。3、业务理解与指标分析：根据用户需要，结合智慧交通常用分析指标，对内蒙东站附近数据进行分析，筛选出适合的离线分析指标。4、功能研发与测试：负责离线数仓架构搭建，hive数仓指标的开发任务，协助前端同事开发可视化大屏功能。技术描述：1. 日志数据通过Nginx 实现负载均衡，将日志数据经由Flume发送到 Kafka ，业务数据存储在 MySQL ；2. 使用Flume进行了日志采集，通过自定义拦截器对数据进行清洗，以及解决数据的零点漂移问题，并且对落盘到HDFS的小文件问题进行了处理；3. 首日的业务数据通过DataX实现HDFS和MySQL数据库之间的导入导出，并且对Null存储问题，数据一致性问题进行了解决；4. 每日的业务数据通过Maxwell将MySQL中的业务数据导入到Kafka，进行增量同步；5. 数据由Flume进入Kafka，对上游海量数据起到缓冲作用，同时采用多副本加acks=-1来保证数据完整可靠，采用幂等加事务来保证数据的精确一次性；6. 数仓业务处理过程使用Hive架构+Spark引擎的模式，满足大规模计算的同时有效提高计算效率，针对常见故障进行优化，例如小文件，数据倾斜等；7. ODS层数据不做处理进行备份，创建分区表同时压缩；DWD层对数据进行清洗，脱敏处理；DIM层用于存放维度数据以及维度退化；DWS层对相同维度相同业务周期的数据进行预聚合；ADS层进行指标的相关分析；8. 使用DataX将ADS层的数据导入到MySQL中，用Superset对接MySQL，通过仪表盘展示统计分析结果；9. 把各项操作封装成Shell脚本，使用DolphinScheduler调度Shell脚本，并集成第三方告警平台，实现任务失败通知；10. 使用Cloudera Manager监控集群的各个组件的健康状况。

内蒙二期大数据离线指标分析平台

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐