翠星后端其他-程序员客栈

6天前在线

D级

实时数据开发工程师

合肥

全职 · 1000/日 · 21750/月信用正常

工作时间: 工作日14:00-21:00工作地点:

服务企业: 1家累计提交: 0工时

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

我是程序员客栈的翠星，是一名大数据开发工程师,有8年的工作经验,5年数据开发经验,负责过TB级数据量的数据开发项目,独立负责过数据仓库搭建和实时数据计算的开发工作,熟练使用Flink,Spark,Kafka,Hive,Hdfs,Hbase等开发组件,常用开发语言有:Java,Scala,Python,Shell.

如果我能帮上您的忙，请点击"立即预约"!

2021-01-01 -2022-11-30上海嘉峪智能科技有限公司实时数据开发工程师
一、参与并主导完成TB级实时出行服务框架的搭建 1.数据接入、解析、赋值 2.唯一标识判断、赋值，对一段时间内的连续行为，添加相同的标识，类似session id 3.指标计算.使用类AggregatingState的实现，优化代码;解决shuffle中乱序导致的状态数据持续累计变大，最终导致的任务失败二、实现驾驶三急行为的实时判别算法与算法同学配合，实现急加/减速和急转弯事件的工程化三、独立完成出行服务中的事件识别并上线 1.基于业务需求，将出行服务中的事件按照触发型、趋势型和特殊型。 2.配置表方式支持灵活配置和可扩展化，实现出行服务中核心原子事件的识别。 3.供不同业务方使用。核心原子事件包括但不限于：行程的开始结束识别、油箱液位变化异常识别、速度阈值跳变识别等。
2020-04-01 -2020-12-01上海拍拍贷金融信息服务有限公司实时数据开发工程师
一、参与负责实时数仓体系的实时 etl 功能 1.通过外部 sql 文件方式，自动将数据格式化。 2.输出到 mysql/kafka/phoenix 等数据存储组件，承担 80%的 etl 功能开发 3.基于flink1.10的二次开发：phoenix connector。
2018-05-01 -2020-03-01上海星艾网络科技有限公司大数据开发工程师
一、主导重构离线数据仓库体系建设此处并未使用调度系统，单纯依赖linux的crontab功能 1.数据采集：定时采集，入库配置化。 2.数据分层：利用 ONE-DATA 理念对数仓分层设计ODS，DWD，DWS，ADS，并基于 json 映射机制创建外部表，提高了了数据源结构的灵活性。 3.监控告警：python开发监控脚本工具，引入到日常sql任务中。二、独立搭建实时数据采集链路 1.接收 mongo 的 binlog，发送到 kafka，实现业务数据实时采集。

2011-09-01 - 2015-07-01北京信息科技大学信息安全本科

Python

Scala

Kafka

Hadoop

HDFS

Java

作品

基于flink实时计算的twitter数据的KOL计算及情感分析

1.每天爬取全量推特帖子及用户相关信息数据,发送到kafka 2.实时监控重点用户及帖子的动态数据,发送到kafka 3.接收数据,保持最新用户及帖子状态数据,更新到es中,并生成指定维度的报表 4.基于现有的帖子数据,对内容进行自然语言处理,判断语气的正负面,并提取关键信息保存

2023-11-30 01:07

基于flink sql的实时ETL功能

基于flink的table api实现的,快速etl功能,可以通过传递一个sql文件,任务自动解析sql,执行任务,flink 语法完全兼容,还可以使用 set语句,来进行变量赋值

2023-11-30 00:59

基于Flink实时计算的区块链数据计算

主要针对ERC20,ERC721,ERC1155协议数据进行存储计算,最终能为客户实时展示和查询,某个币的卖家,买家,交易时间,数量等信息. 1.数据从kafka接入,经过flink任务后,写到clickhouse 2.clickhouse每天都会进行一次批量计算 3.同时使用flink进行实时计算,完成增量更新 4.由于中间发生过服务器升级情况,为了避免数据产生问题,所以增量数据和全量数据分开存储,每天把3天前的数据写入到全量表中,最近3天存在另一张表中,在对用户展示时,会把两张表关联起来查询

2023-11-30 00:50

更新于: 2023-11-30 浏览: 533

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐