proginn1529414968Java-程序员客栈

高级大数据开发

北京

全职 · 1100/日 · 23925/月信用一般

工作时间: 工作日09:00-18:00工作地点: 远程

服务企业: 0家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

编程语言:

1.熟练使用SQL，具有良好的Hive SQL、Spark SQL优化经验。

2.熟练使用Python、Scala、Shell等语言

离线组件：

1.掌握Hadoop系统架构，理解HDFS的读写流程，MapReduce的Shuffle机制，Yarn架构以及提交的流程。

2.掌握Hive系统架构，熟练使用Hive SQL，用常见函数、开窗函数、自定义UDF函数等进行复杂海量数据计算；熟悉Hive的优

化（参数调优、数据倾斜等）。

3.掌握Spark的系统架构、任务的执行流程；熟悉Spark的Shuffle机制、内存管理机制、Stage的划分等,具备Spark调优经验。

4.了解HBase的基本架构，以及HBase的读写流程。

实时组件：

1.熟悉实时计算框架Flink的使用，对Flink中的Window、Watermark、状态编程、容错机制等有一定的理解。

2.熟悉消息中间件Kafka系统架构和工作原理，了解Kafka零拷贝原理。

综合能力：

1.熟悉数仓中的维度建模理论，数仓分层设计，以业务为基础的前提下，构建项目中的分层方案。

2.掌握数仓中的主题域的切分，按照不同的业务部门、业务过程划分不同的主题。

3.掌握数仓中的数据治理理论。

2024-09-10 -2025-02-14壹永科技高级大数据开发
项目描述：该项目基于壹永数据中台项目，主要通过Hive、Spark、Impala大数据工具根据项目需求文档进行医学变量、售前探查开发。责任描述：做为项目主要开发人员，参与各个项目的开发 1.负责正式生产项目的变量开发以及售前项目开发，通过优化参数，代码结构优化，提升代码运行效率 2. 负责开发以及完善udf函数，扩充了项目开发知识库，提升了代码开发效率以，提高了代码简洁性 3.为了解决团队中各开发人员开发无统一规范，项目文档代码可读性差，编写完成生产开发规范，规范了开发过程中的各种事项
2022-06-15 -2024-03-29绫致时装有限公司高级大数据开发工程师
绫致时装离线数仓项目项目描述：该项目是为提升公司的数据驱动业务的能力，支撑公司的营收增长战略等构建的数仓。基于Hive、Spark等开源大数据组件设计开发，直观展示关键的业务指标，为公司管理层提供日常销售活动、广告的ROI数据，为业务提供准确的人群画像数据。其中核心业务任务工作流30+，批处理任务数500+，日均处理数据2-3T。同时由于前期缺乏对数据开发的统一管理标准，导致数仓分层混乱、层级之间存在反向依赖、大量重复开发指标等问题，该项目参照 OneData和OneService的方法论实现了数据地图、指标管理系统和数据成本治理模块，实现了数仓开发规范落地，数据指标业务口径一致，平均需求开发交付时间从10天缩短至4天。岗位职责：做为项目核心开发人员，负责核心代码的实现以及后期更新迭代。 1.优化缓慢维度变化的会员表的DWD层计算方式，采用拉链表设计，在表中添加开始日期和结束日期字段，是否是最新三个字段，将历史数据自动归档到历史链表中。通过拉链表的特殊结构,使会员表使用更灵活，后续取数关联也得到相应优化，运行时间缩减20%。 2.为了解决业务中Join性能问题

2010-09-01 - 2014-06-15石家庄学院信息与计算科学本科已认证

普通话

Python

Java

更新于: 03-25 浏览: 19

个人介绍

工作经历

教育经历

语言

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐