个人介绍
我是程序员客栈的翠星,是一名大数据开发工程师,有8年的工作经验,5年数据开发经验,负责过TB级数据量的数据开发项目,独立负责过数据仓库搭建和实时数据计算的开发工作,熟练使用Flink,Spark,Kafka,Hive,Hdfs,Hbase等开发组件,常用开发语言有:Java,Scala,Python,Shell.
如果我能帮上您的忙,请点击"立即预约"!
工作经历
2021-01-01 -2022-11-30上海嘉峪智能科技有限公司实时数据开发工程师
一、参与并主导完成TB级实时出行服务框架的搭建 1.数据接入、解析、赋值 2.唯一标识判断、赋值,对一段时间内的连续行为,添加相同的标识,类似session id 3.指标计算.使用类AggregatingState的实现,优化代码;解决shuffle中乱序导致的状态数据持续累计变大,最终导致的任务失败 二、实现驾驶三急行为的实时判别算法 与算法同学配合,实现急加/减速和急转弯事件的工程化 三、独立完成出行服务中的事件识别并上线 1.基于业务需求,将出行服务中的事件按照触发型、趋势型和特殊型。 2.配置表方式支持灵活配置和可扩展化,实现出行服务中核心原子事件的识别。 3.供不同业务方使用。核心原子事件包括但不限于:行程的开始结束识别、油箱液位变化异常识别、速度阈值跳变识别等。
2020-04-01 -2020-12-01上海拍拍贷金融信息服务有限公司实时数据开发工程师
一、参与负责实时数仓体系的实时 etl 功能 1.通过外部 sql 文件方式,自动将数据格式化。 2.输出到 mysql/kafka/phoenix 等数据存储组件,承担 80%的 etl 功能开发 3.基于flink1.10的二次开发:phoenix connector。
2018-05-01 -2020-03-01上海星艾网络科技有限公司大数据开发工程师
一、主导重构离线数据仓库体系建设 此处并未使用调度系统,单纯依赖linux的crontab功能 1.数据采集:定时采集,入库配置化。 2.数据分层:利用 ONE-DATA 理念对数仓分层设计ODS,DWD,DWS,ADS,并基于 json 映射机制创建外部表,提高了了数据源结构的灵活性。 3.监控告警:python开发监控脚本工具,引入到日常sql任务中。 二、独立搭建实时数据采集链路 1.接收 mongo 的 binlog,发送到 kafka,实现业务数据实时采集。
教育经历
2011-09-01 - 2015-07-01北京信息科技大学信息安全本科
技能
1.每天爬取全量推特帖子及用户相关信息数据,发送到kafka 2.实时监控重点用户及帖子的动态数据,发送到kafka 3.接收数据,保持最新用户及帖子状态数据,更新到es中,并生成指定维度的报表 4.基于现有的帖子数据,对内容进行自然语言处理,判断语气的正负面,并提取关键信息保存
基于flink的table api实现的,快速etl功能,可以通过传递一个sql文件,任务自动解析sql,执行任务,flink 语法完全兼容,还可以使用 set语句,来进行变量赋值