寡人头好痛
1月前来过
全职 · 800/日  ·  17400/月
工作时间: 工作日20:00-24:00、周末09:00-18:00工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

使用APP扫码聊一聊

个人介绍

我是程序员客栈的【寡人头好痛】,一名【大数据工程师】; 熟练使用【Java】,【Scala】,【Hadoop】,【Spark】,【Flink】等技术栈; 如果我能帮上您的忙,请点击“立即预约”或“发布需求”!

工作经历 和TA聊聊

APP扫码和程序员直接沟通

  • 该用户选择隐藏工作经历信息,如需查看详细信息,可点击右上角“和TA聊一聊”查看

教育经历 和TA聊聊

APP扫码和程序员直接沟通

  • 该用户选择隐藏教育经历信息,如需查看详细信息,可点击右上角“和TA聊一聊”查看

技能

Docker
Zookeeper
MySQL
电子商务
Kafka
Hadoop
HDFS
0
1
2
3
4
5
0
1
2
3
4
5
作品
xx商城离线数仓

采用双层 Flume 采集日志数据,第一层采集选择 TailDirSource 可实现断点续传,选择 KafkaChannel 直接数 据采集到 Kafka,第二层采集选择 KafkaSource 从 Kafka 读取数据,FileChannel 高速传输,HDFSSink 将数据采集 到 HDFS; 使用 Kafka 消息队列,对数据经行削峰解耦,使采集系统更稳定; 解决 Flume 采集到 HDFS 上,产生的小文件问题; 在 DWD 层对数据进行脏数据清洗、私密信息脱敏、去重、空值的处理等操作; 采用 snappy 压缩,减少磁盘空间; 采用列式存储,方便高效查询,采用日期分区表,避免全表扫描; 通过拉链表,保证数据全量最新; 利用 DolphinScheduler 调度各层脚本,制定定时任务。

0
2023-04-16 21:05
服装批发实时数据分析系统一期

实时将日志数据和业务数据采集到 Kafka 中,使用 SparkStreaming 消费 Kafka 实时数据,SparkStreaming 通 过设置每个批处理的间隔时间,将流式计算分解成一系列批处理作业;将数据按业务需求分析处理后的结果存入 MySQL,供 Java 前端进行可视化展示,实时了解业务指标,为企业科学决策提供依据,促进平台发展。 使用 Maxwell 实时将 MySQL 的数据同步到 Kafka; 使用 Redis 对数据进行去重,手动维护 offset; 使用 SparkStreaming 将 Kafka 里面的数据消费出来,进行清洗; 使用 SQL 语句分析业务指标,通过 Sugar 进行可视化展示。

0
2023-04-16 21:06
服装批发实时数据分析系统二期

对用户行为日志进行分流,采用侧输出流的方式写入到 Kafka 不同的 Topic 中; 对业务数据采用动态分流,动态控制业务数据的 sink 方向; DWS 宽表层的设计,使用 interval join 实现事实表与事实表之间的双流 join,使用 Redis 热加载存储的机制, 进行维度补全,并采用旁路缓存和异步 I/O 对其进行优化; 使用 Flink 的时间语义和窗口机制,实时统计每小时 PV 和 UV; 使用 CEP 严格相邻规则,实现跳出明细的统计; 自定义分词器工具类,对搜索关键词进行拆分,实现搜索热词统计。

0
2023-04-16 21:07
更新于: 2022-09-29 浏览: 130