翠星
14天前在线
全职 · 1000/日  ·  21750/月
工作时间: 工作日14:00-21:00工作地点:
服务企业: 1家累计提交: 0工时
聊一聊

使用APP扫码聊一聊

个人介绍

我是程序员客栈的翠星,是一名大数据开发工程师,有8年的工作经验,5年数据开发经验,负责过TB级数据量的数据开发项目,独立负责过数据仓库搭建和实时数据计算的开发工作,熟练使用Flink,Spark,Kafka,Hive,Hdfs,Hbase等开发组件,常用开发语言有:Java,Scala,Python,Shell.

如果我能帮上您的忙,请点击"立即预约"!

工作经历

  • 2021-01-01 -2022-11-30上海嘉峪智能科技有限公司实时数据开发工程师

    一、参与并主导完成TB级实时出行服务框架的搭建 1.数据接入、解析、赋值 2.唯一标识判断、赋值,对一段时间内的连续行为,添加相同的标识,类似session id 3.指标计算.使用类AggregatingState的实现,优化代码;解决shuffle中乱序导致的状态数据持续累计变大,最终导致的任务失败 二、实现驾驶三急行为的实时判别算法 与算法同学配合,实现急加/减速和急转弯事件的工程化 三、独立完成出行服务中的事件识别并上线 1.基于业务需求,将出行服务中的事件按照触发型、趋势型和特殊型。 2.配置表方式支持灵活配置和可扩展化,实现出行服务中核心原子事件的识别。 3.供不同业务方使用。核心原子事件包括但不限于:行程的开始结束识别、油箱液位变化异常识别、速度阈值跳变识别等。

  • 2020-04-01 -2020-12-01上海拍拍贷金融信息服务有限公司实时数据开发工程师

    一、参与负责实时数仓体系的实时 etl 功能 1.通过外部 sql 文件方式,自动将数据格式化。 2.输出到 mysql/kafka/phoenix 等数据存储组件,承担 80%的 etl 功能开发 3.基于flink1.10的二次开发:phoenix connector。

  • 2018-05-01 -2020-03-01上海星艾网络科技有限公司大数据开发工程师

    一、主导重构离线数据仓库体系建设 此处并未使用调度系统,单纯依赖linux的crontab功能 1.数据采集:定时采集,入库配置化。 2.数据分层:利用 ONE-DATA 理念对数仓分层设计ODS,DWD,DWS,ADS,并基于 json 映射机制创建外部表,提高了了数据源结构的灵活性。 3.监控告警:python开发监控脚本工具,引入到日常sql任务中。 二、独立搭建实时数据采集链路 1.接收 mongo 的 binlog,发送到 kafka,实现业务数据实时采集。

教育经历

  • 2011-09-01 - 2015-07-01北京信息科技大学信息安全本科

技能

Kafka
Hadoop
HDFS
0
1
2
3
4
5
0
1
2
3
4
5
作品
基于flink实时计算的twitter数据的KOL计算及情感分析

1.每天爬取全量推特帖子及用户相关信息数据,发送到kafka 2.实时监控重点用户及帖子的动态数据,发送到kafka 3.接收数据,保持最新用户及帖子状态数据,更新到es中,并生成指定维度的报表 4.基于现有的帖子数据,对内容进行自然语言处理,判断语气的正负面,并提取关键信息保存

0
2023-11-30 01:07
基于flink sql的实时ETL功能

基于flink的table api实现的,快速etl功能,可以通过传递一个sql文件,任务自动解析sql,执行任务,flink 语法完全兼容,还可以使用 set语句,来进行变量赋值

0
2023-11-30 00:59
基于Flink实时计算的区块链数据计算

主要针对ERC20,ERC721,ERC1155协议数据进行存储计算,最终能为客户实时展示和查询,某个币的卖家,买家,交易时间,数量等信息. 1.数据从kafka接入,经过flink任务后,写到clickhouse 2.clickhouse每天都会进行一次批量计算 3.同时使用flink进行实时计算,完成增量更新 4.由于中间发生过服务器升级情况,为了避免数据产生问题,所以增量数据和全量数据分开存储,每天把3天前的数据写入到全量表中,最近3天存在另一张表中,在对用户展示时,会把两张表关联起来查询

0
2023-11-30 00:50
更新于: 2023-11-30 浏览: 426