个人介绍
我是程序员客栈的【寡人头好痛】,一名【大数据工程师】; 熟练使用【Java】,【Scala】,【Hadoop】,【Spark】,【Flink】等技术栈; 如果我能帮上您的忙,请点击“立即预约”或“发布需求”!
工作经历
和TA聊聊APP扫码和程序员直接沟通
该用户选择隐藏工作经历信息,如需查看详细信息,可点击右上角“和TA聊一聊”查看
教育经历
和TA聊聊APP扫码和程序员直接沟通
该用户选择隐藏教育经历信息,如需查看详细信息,可点击右上角“和TA聊一聊”查看
技能
采用双层 Flume 采集日志数据,第一层采集选择 TailDirSource 可实现断点续传,选择 KafkaChannel 直接数 据采集到 Kafka,第二层采集选择 KafkaSource 从 Kafka 读取数据,FileChannel 高速传输,HDFSSink 将数据采集 到 HDFS; 使用 Kafka 消息队列,对数据经行削峰解耦,使采集系统更稳定; 解决 Flume 采集到 HDFS 上,产生的小文件问题; 在 DWD 层对数据进行脏数据清洗、私密信息脱敏、去重、空值的处理等操作; 采用 snappy 压缩,减少磁盘空间; 采用列式存储,方便高效查询,采用日期分区表,避免全表扫描; 通过拉链表,保证数据全量最新; 利用 DolphinScheduler 调度各层脚本,制定定时任务。
实时将日志数据和业务数据采集到 Kafka 中,使用 SparkStreaming 消费 Kafka 实时数据,SparkStreaming 通 过设置每个批处理的间隔时间,将流式计算分解成一系列批处理作业;将数据按业务需求分析处理后的结果存入 MySQL,供 Java 前端进行可视化展示,实时了解业务指标,为企业科学决策提供依据,促进平台发展。 使用 Maxwell 实时将 MySQL 的数据同步到 Kafka; 使用 Redis 对数据进行去重,手动维护 offset; 使用 SparkStreaming 将 Kafka 里面的数据消费出来,进行清洗; 使用 SQL 语句分析业务指标,通过 Sugar 进行可视化展示。