Double杠
1月前来过
全职 · 300/日  ·  6525/月
工作时间: 工作日21:00-24:00、周末9:00-18:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

在小企业做大数据开发,有5年工作经验,主要负责离线数仓搭建,离线任务部分,涉及hadoop spark hive flume sqoop 以及小海豚调度等大数据相关组件,mysql hbase clickhouse redis 数据库,shell脚本也是平时常写的,工作中使用的CDH管理大数据集群,平时使用开发语言scala/java

工作经历

  • 2020-10-01 -至今北京**科创科技有限公司大数据开发

    在这家公司做大数据开发,主要负责离线部分,离线数仓搭建以及离线任务开发,前期以搭建数仓为主,后期调优做后续新增需求,做了有三个比较大的项目,小项目前前后后也不少,

教育经历

  • 2014-09-01 - 2018-06-01大连汽车学院数学与应用数学专科

    大专学历,求职不易,如有雇佣者,定尽心尽责

技能

Hadoop
HDFS
0
1
2
3
4
5
0
1
2
3
4
5
作品

这项目使用cdh管理的大数据集群 架构方面是使用sparkstreaming消费kafka数据到hive 后续离线任务使用spark程序或hivesql直接开发,离线部分数据直接存到hive中,后续ads数据会通过sqoop或者部分spark任务直接写到mysql中,给web做数据支撑

0
2024-08-17 05:41

该项目使用CDH管理大数据集群,集群规模5节点,32c64G,在架构设计上,数据从两部分流到hdfs中,第一部分是实时计算,消费kafka数据而来,第二部分使用flume消费kafka而来。离线计算直接使用spark程序处理hdfs中的文件,进而出各种离线指标,部分中间结果会存在hdfs中,离线任务结果数据直接存在mysql中,直接为web提供数据

0
2024-08-17 05:38

该项目主要做重型车排放监控 使用到cdh管理大数据集群,集群规模30+节点,11个yarn节点96C512G,数据量日增450亿条 我主要负责离线数仓搭建,离线任务开发 架构方面,flink实时消费kafka数据到hive为离线数仓用,消费到clickhouse为做实时数仓用,离线数仓这部分设计上主要分为五层ods dwd dws ads dim 层, 这个项目离线数仓部分主要使用sql居多 因数据量特别大,涉及的调优问题比较多

0
2024-08-17 05:47
更新于: 08-17 浏览: 43