寡人头好痛Java-程序员客栈

1月前来过

D级

大数据工程师

杭州

全职 · 800/日 · 17400/月信用正常

工作时间: 工作日20:00-24:00、周末09:00-18:00工作地点: 远程

服务企业: 0家累计提交: 0工时

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

我是程序员客栈的【寡人头好痛】，一名【大数据工程师】；熟练使用【Java】，【Scala】，【Hadoop】，【Spark】，【Flink】等技术栈；如果我能帮上您的忙，请点击“立即预约”或“发布需求”！

该用户选择隐藏工作经历信息，如需查看详细信息，可点击右上角“和TA聊一聊”查看

该用户选择隐藏教育经历信息，如需查看详细信息，可点击右上角“和TA聊一聊”查看

Docker

Shell

Zookeeper

Java

MySQL

电子商务

Kafka

Hadoop

HDFS

作品

xx商城离线数仓

采用双层 Flume 采集日志数据，第一层采集选择 TailDirSource 可实现断点续传，选择 KafkaChannel 直接数据采集到 Kafka，第二层采集选择 KafkaSource 从 Kafka 读取数据，FileChannel 高速传输，HDFSSink 将数据采集到 HDFS；使用 Kafka 消息队列，对数据经行削峰解耦，使采集系统更稳定；解决 Flume 采集到 HDFS 上，产生的小文件问题；在 DWD 层对数据进行脏数据清洗、私密信息脱敏、去重、空值的处理等操作；采用 snappy 压缩，减少磁盘空间；采用列式存储，方便高效查询，采用日期分区表，避免全表扫描；通过拉链表，保证数据全量最新；利用 DolphinScheduler 调度各层脚本，制定定时任务。

2023-04-16 21:05

服装批发实时数据分析系统一期

实时将日志数据和业务数据采集到 Kafka 中，使用 SparkStreaming 消费 Kafka 实时数据，SparkStreaming 通过设置每个批处理的间隔时间，将流式计算分解成一系列批处理作业；将数据按业务需求分析处理后的结果存入 MySQL，供 Java 前端进行可视化展示，实时了解业务指标，为企业科学决策提供依据，促进平台发展。使用 Maxwell 实时将 MySQL 的数据同步到 Kafka；使用 Redis 对数据进行去重，手动维护 offset；使用 SparkStreaming 将 Kafka 里面的数据消费出来，进行清洗；使用 SQL 语句分析业务指标，通过 Sugar 进行可视化展示。

2023-04-16 21:06

服装批发实时数据分析系统二期

对用户行为日志进行分流，采用侧输出流的方式写入到 Kafka 不同的 Topic 中；对业务数据采用动态分流，动态控制业务数据的 sink 方向； DWS 宽表层的设计，使用 interval join 实现事实表与事实表之间的双流 join，使用 Redis 热加载存储的机制，进行维度补全，并采用旁路缓存和异步 I/O 对其进行优化；使用 Flink 的时间语义和窗口机制，实时统计每小时 PV 和 UV；使用 CEP 严格相邻规则，实现跳出明细的统计；自定义分词器工具类，对搜索关键词进行拆分，实现搜索热词统计。

2023-04-16 21:07

更新于: 2022-09-29 浏览: 166

个人介绍

工作经历和TA聊聊
APP扫码和程序员直接沟通

教育经历和TA聊聊
APP扫码和程序员直接沟通

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐

个人介绍

工作经历 和TA聊聊APP扫码和程序员直接沟通

教育经历 和TA聊聊APP扫码和程序员直接沟通

技能

相似推荐 换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐

工作经历和TA聊聊
APP扫码和程序员直接沟通

教育经历和TA聊聊
APP扫码和程序员直接沟通

相似推荐换一批