个人介绍
大数据开发高级工程师,数据分析高级工程师,
Hive: 掌握 Hive的工作机制,了解数据仓库的建立、完成对数据主题抽取和多维分析,具有一定的Hive 调优经验
Kafka: 熟悉 Kafka 集群搭建与组织架构,熟练使用Kafka直接方式实现消费数据偏移量的手动维护和校验
Spark :熟悉Spark Core相关算子可以Spark SQL进行数据的处理、查询、统计、拥有一定的Spark SQL调优经验
Hadoop: 熟悉 HDFS、Yarn 底层原理,读写流程,计算流程,以及各版本之间的新特性
Flume: 掌握 Flume 采集工作原理,实现流水式的数据过滤和分析自定义Source实现日志采集过程中偏移量的维护
HBase: 熟悉其读写流程,刷写,切分原则 ,Row Key 的设计原则
DataX:熟练掌握DataX工具异构数据源同步,可以对DataX速度控制、内存调整进行相应的调优
Sqoop:熟练掌握Sqoop工具对实现非关系型数据库与关系型数据库的互导
Maxwell:熟练掌握Maxwell增量数据同步以及历史数据的全量同步
Superset: 熟练使用 Superset 做报表的展示开发
Zookeeper:熟悉分布式协调系统Zookeeper的搭建,了解Zookeeper的主从选举机制 Linux:了解 Linux 操作系统,可以使用 Linux 一些常用的操作命令。
其它:java,scala,python,web,Elasticsearch,Presto、DolphinScheduler
1、具备团队合作精神,人品正直诚实,有责任心,能够承担一定的工作压力
2、对工作学习善于总结,对新技术有着强烈的好奇心
3、对工作尽职尽责,乐于接受挑战性的工作
4、乐于与用户以及同事和领导沟通,以便快速解决项目中遇到的问题
5、心态积极乐观、乐于与人交流、与人为善、感恩知福
工作经历
2018-06-30 -2021-05-05深圳无域科技有限公司大数据开发工程师
负责大数据开发相关工作,包括数据采集,数据处理,数据计算,数据分析,数据存储,报表展示
教育经历
2022-09-01 - 2023-09-30杜伦大学科学计算与数据分析硕士
技能
1、从ODS层中将采集过来的数据,清洗、处理、计算,从而汇总成企业属性表; 2、根据固网、移网、CSV三种数据进行处理,从而得为友商的寻求新的商机机会; 3、通过数据中心调度系统,对数据进行每日全量新增、通过报表进行展示出来; 4、根据汇总的企业属性表做一些指标的开发,从而得出成员分、企业分。
1、负责在运营商提供的一体化数据资产平台进行建模,定义数据回流文件格式; 2、回流格式会通过HDFS映射到数仓的ODS层,对数据进行清洗,入库Incr表入DWD层同时会记录在MySQL中 ,然后通过incr表和撞库文件进行撞库,从而得到tag_result表,供商业地产,gass、等其他业务线进行使用; 3、通过自定义扫描器脚本对全国联通、全国电信、广州移动等运营商推送的数据进行扫描自动化入库; 4、根据入库的数据对运营商做计费统计 (若多模型设备重复,算多份钱) 及更新mysql运营商表。
1、负责数据仓库相关负责数据仓库相关开发和优化,包括数据清洗、分类和计算等; 2、负责数仓的一些标签开发,通过分析用户的IBS数据(GPS、基站、WiFi、IP)同时结合爬虫得到的poi 信息,判断出用户是否去过某个poi,计算出用户的偏好指数,从而推断用户在相应的时间段内的线下行为偏好; 3、通过分析用户不同时间段内,对不通类别的APP进行安装卸载活跃等行为,计算用户的偏好指数,从而推断 用户在相应时间段内的线上行为偏好; 4、利用用户在家时间段和工作时间段的lbs数据(gps,基站,wifi, ip),通用dbscan聚类算法预测用户的工作 地和居住地 5、利用用户的在装app数据,同时结合爬中得到的相应app的具体文字描述,使用Ida主题模型预测用户兴趣偏好