个人介绍
工作经历
2020-10-01 -至今北京**科创科技有限公司大数据开发
在这家公司做大数据开发,主要负责离线部分,离线数仓搭建以及离线任务开发,前期以搭建数仓为主,后期调优做后续新增需求,做了有三个比较大的项目,小项目前前后后也不少,
教育经历
2014-09-01 - 2018-06-01大连汽车学院数学与应用数学专科
大专学历,求职不易,如有雇佣者,定尽心尽责
技能
这项目使用cdh管理的大数据集群 架构方面是使用sparkstreaming消费kafka数据到hive 后续离线任务使用spark程序或hivesql直接开发,离线部分数据直接存到hive中,后续ads数据会通过sqoop或者部分spark任务直接写到mysql中,给web做数据支撑
该项目使用CDH管理大数据集群,集群规模5节点,32c64G,在架构设计上,数据从两部分流到hdfs中,第一部分是实时计算,消费kafka数据而来,第二部分使用flume消费kafka而来。离线计算直接使用spark程序处理hdfs中的文件,进而出各种离线指标,部分中间结果会存在hdfs中,离线任务结果数据直接存在mysql中,直接为web提供数据
该项目主要做重型车排放监控 使用到cdh管理大数据集群,集群规模30+节点,11个yarn节点96C512G,数据量日增450亿条 我主要负责离线数仓搭建,离线任务开发 架构方面,flink实时消费kafka数据到hive为离线数仓用,消费到clickhouse为做实时数仓用,离线数仓这部分设计上主要分为五层ods dwd dws ads dim 层, 这个项目离线数仓部分主要使用sql居多 因数据量特别大,涉及的调优问题比较多