proginn1104089521
1月前来过
全职 · 1000/日  ·  21750/月
工作时间: 周末7:00-24:00工作地点: 远程
服务企业: 1家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

曾就职于阿里cro风控部、58大数据平台部,目前深耕的方向是spark和flink。我熟练Java、scala、Python、golang语言开发,熟练使用hive、spark、flink、sqoop、flume、kafka、pulsar、kylin开源框架。热衷于开源,是mlsql开源团队核心成员,也是Apache pulsar和bookkeeper开源框架的commiter。目前在家办公,有较多的私人时间。

工作经历

  • 2019-08-01 -2021-08-01阿里巴巴高级研发工程师

    职责 主要负责集团风控基础平台的风控引擎开发和维护,改造离线引擎满足集团复杂的业务防控场景,优化防控链路提升防控效率。建设离线还原、数据回捞、算法服务、任务分组、树策略包调度、业务身份前置逻辑过滤、通道策略等引擎能力。 部分项目经验 算法服务(近离线引擎的算法调度) - 项目内容:依托策略智能化的背景,为策略运营提供算法快速添加、升级,分别支持近线和离线的引擎场景,实现引擎侧自动调用模型计算,支持算法结果自定义解析脚本配置,规范化出参引入到事件上进行风险布防。离线计算是基于 mapreduce 的 ODPS 开发, 使用了 embedded 动态编译算法解析逻辑, 近线计算使用 flink + hbase 实现。 - 业绩:算法接入速度由以前的1~2周缩短到1天左右,从基于经验的人工策略迁移到基于算法防控的策略数量300+。 风险画布(风控链路编排管理平台) - 项目内容:1)作为项目 PM 主导风控画布项目,提供用户一站式防控的统一入口,所见即所得的感知整个防控链路,包括从规则引擎识别风险、风险决策、风险审核、处置各个环节。设计、开发了画布的测试、灰度和无风险变更免灰度流程。编排工

  • 2018-03-01 -2019-07-0158到家大数据研发工程师

    职责 基于CDH大数据计算平台建设,包括实时计算、批计算平台的任务调度、治理等,基于集群作业的数据体系建设多集群数据自动同步、数据生命周期管理等。 主要业绩 支撑到家集团整体大数据计算需求,计算节点规模为500+,存储规模15PB+,每天调度作业在6W+,实时计算任务100+ 部分项目经验 平台任务调度依赖关系自动化;数据工厂支持impala/hive/spark sql数据查询引擎,解析Hive OperatorTree透出任务进度;任务优先级分级等。以上特性为企业数据高效稳定产出提供了有力保障,稳定支撑到家业务对数据的需求。 集团消息平台维护,建设pulsar分布式集群,跟社区有过深度合作和源码贡献,对存储计算分离的pulsar有二次开发经验。 跨集群数据复制服务 解决不同平台下存储在不同的集群之间数据复制; 针对阿里云 Maxc集群/腾讯云集群之间数据同步, 支持可视化配置, 数据工厂任务依赖打通, 支持自动同步 Hive/Spark/Hdfs 数据和元数据; 开发过程中集成了开源工具reair做数据复制,有了对开源工具二次开发经验; 改造数据工厂任务调度 自动检测任务的输入

教育经历

  • 2013-09-01 - 2018-07-01天津职业技术师范大学计算机科学与技术本科

    本科学历属于统招本科,计算机科学与技术专业专业(教育方向)规定五年学制,学信网可查,不属于专升本哦;第五年属于教育实习,有较长的实习工作经验 :)

技能

0
1
2
3
4
5
作品

项目描述 Pulsar 是一个分布式 pub-sub 消息队列,具有非常灵活的消息传递模型和直观的客户端API, 支持多租户/弹性存储/动态负载均衡/Geo-Replication 跨机房数据复制等特性; BookKeeper 是一种可扩展,容错和低延迟的分布式存储服务; 项目地址 https://github.com/apache/pulsar, https://github.com/apache/bookkeeper Issures #4482 [pulsar-client]; 修复 pulsar-client 中生产者和消费者聚合指标统计过程中由于口径不一致产生的问题; #4054 [pulsar-client] [pulsar-broker]; 修复当发送超过5M数据时由于没有Chunking特性 或者相关 Configuration 的支持,导致客户端和服务端的异常; #2086 [bookkeeper-site]; 修复修改服务端最大消息大小后发送超过默认字节大小的数据发生异常的问题;

0
2023-12-01 09:35
Apache Pulsar

项目描述 Pulsar 是一个分布式 pub-sub 消息队列,具有非常灵活的消息传递模型和直观的客户端API, 支持多租户/弹性存储/动态负载均衡/Geo-Replication 跨机房数据复制等特性; BookKeeper 是一种可扩展,容错和低延迟的分布式存储服务; 项目地址 https://github.com/apache/pulsar, https://github.com/apache/bookkeeper Issures #4482 [pulsar-client]; 修复 pulsar-client 中生产者和消费者聚合指标统计过程中由于口径不一致产生的问题; #4054 [pulsar-client] [pulsar-broker]; 修复当发送超过5M数据时由于没有Chunking特性 或者相关 Configuration 的支持,导致客户端和服务端的异常; #2086 [bookkeeper-site]; 修复修改服务端最大消息大小后发送超过默认字节大小的数据发生异常的问题;

0
2021-11-21 11:36
qps-limiter-queue (流量控制的消息队列)

项目地址 https://github.com/hellozepp/myqueue 项目描述 设计支持 Exclusive/Share Mode 的消息队列, 支持客户端和服务端流量控制, 保证数据流速控制在用户配置的 Kb/s 值范围内; 支持漏桶算法和滑动窗口算法, 通过使用 Guava TpsLimeter, 解决流量分发不均匀产生的"突刺现象";

0
2021-11-21 11:34
更新于: 2021-11-21 浏览: 157