




个人介绍
编程语言:
1.熟练使用SQL,具有良好的Hive SQL、Spark SQL优化经验。
2.熟练使用Python、Scala、Shell等语言
离线组件:
1.掌握Hadoop系统架构,理解HDFS的读写流程,MapReduce的Shuffle机制,Yarn架构以及提交的流程。
2.掌握Hive系统架构,熟练使用Hive SQL,用常见函数、开窗函数、自定义UDF函数等进行复杂海量数据计算;熟悉Hive的优
化(参数调优、数据倾斜等)。
3.掌握Spark的系统架构、任务的执行流程;熟悉Spark的Shuffle机制、内存管理机制、Stage的划分等,具备Spark调优经验。
4.了解HBase的基本架构,以及HBase的读写流程。
实时组件:
1.熟悉实时计算框架Flink的使用,对Flink中的Window、Watermark、状态编程、容错机制等有一定的理解。
2.熟悉消息中间件Kafka系统架构和工作原理,了解Kafka零拷贝原理。
综合能力:
1.熟悉数仓中的维度建模理论,数仓分层设计,以业务为基础的前提下,构建项目中的分层方案。
2.掌握数仓中的主题域的切分,按照不同的业务部门、业务过程划分不同的主题。
3.掌握数仓中的数据治理理论。
工作经历
2024-09-10 -2025-02-14壹永科技高级大数据开发
项目描述:该项目基于壹永数据中台项目,主要通过Hive、Spark、Impala大数据工具根据项目需求文档进行医学变量、售前探 查开发。 责任描述:做为项目主要开发人员,参与各个项目的开发 1.负责正式生产项目的变量开发以及售前项目开发,通过优化参数,代码结构优化,提升代码运行效率 2. 负责开发以及完善udf函数,扩充了项目开发知识库,提升了代码开发效率以,提高了代码简洁性 3.为了解决团队中各开发人员开发无统一规范,项目文档代码可读性差,编写完成生产开发规范,规范了开发过程中的各种事 项
2022-06-15 -2024-03-29绫致时装有限公司高级大数据开发工程师
绫致时装离线数仓项目 项目描述:该项目是为提升公司的数据驱动业务的能力,支撑公司的营收增长战略等构建的数仓。基于Hive、Spark等开源大数据 组件设计开发,直观展示关键的业务指标,为公司管理层提供日常销售活动、广告的ROI数据,为业务提供准确的人群画像数据。 其中核心业务任务工作流30+,批处理任务数500+,日均处理数据2-3T。 同时由于前期缺乏对数据开发的统一管理标准,导致数仓分层混乱、层级之间存在反向依赖、大量重复开发指标等问题,该项目 参照 OneData和OneService的方法论实现了数据地图、指标管理系统和数据成本治理模块,实现了数仓开发规范落地,数据指标 业务口径一致,平均需求开发交付时间从10天缩短至4天。 岗位职责:做为项目核心开发人员,负责核心代码的实现以及后期更新迭代。 1.优化缓慢维度变化的会员表的DWD层计算方式,采用拉链表设计,在表中添加开始日期和结束日期字段,是否是最新三个字 段,将历史数据自动归档到历史链表中。通过拉链表的特殊结构,使会员表使用更灵活,后续取数关联也得到相应优化,运行时间 缩减20%。 2.为了解决业务中Join性能问题
教育经历
2010-09-01 - 2014-06-15石家庄学院信息与计算科学本科已认证