个人介绍
熟悉 java、 scala,熟悉使用 JUC 并发编程
熟悉 java8、 Guava 等常用的 java 工具的使用, 来提高日常编码效率
熟悉 JVM、 JMM 原理和 GC 垃圾回收原理以及相关优化
熟悉使用 Spark Core、 Spark SQL,对 SparkSQL 内核有一定的了解
熟悉 Spark2.1.x 的源码, 熟悉 spark 从任务提交、 stage 划分、任务调度、 task 提交等的整体运行流
程, 这部分整体的看过 Spark2.1. x 部分的代码
熟悉从 RDD 算子、 Shuffle、 jvm 等层面对日常生产中的 Spark 任务进行优化
熟悉 Spark 数据倾斜问题,能够根据日常生产中的数据倾斜提供可行性方案
熟悉 HBase 的使用,熟悉 Hbase 底层的读写流程,对于 BlockCache 中的 LRU 算法有一定的了解
熟悉 kafka, 熟悉 MySQL、 redis 的使用
熟悉 Hive 以及 Impala 的基本使用,熟悉 Hive 分区、 UDF、 UDAF 的使用, 熟悉数仓分层建模
熟悉常用的 OLAP 框架, 如 Impala、 presto
熟悉 SpringBoot 框架的使用,熟悉前后端分离开发流程
熟悉数仓建模, 数仓分层, 能独立的搭建企业级数据仓库
熟悉使用 atlas 进行数据血缘的分析,能够独立的进行集群监控维护
Flink FLink CDC
Delta lake数据湖
云存储OSS、Azure AWS等
工作经历
2016-09-01 -至今海康威视大数据开发
1、 负责安防人脸大数据平台代码开发和维护 2、 负责多个省、市、县下的人脸大数据平台的同行人、同乘人等技战法,以及黑名单等的功能开发 3、 独立负责人-车关系图谱的方案架构设计、代码开发,对接车辆大数据,协助相关人员进行肇事在逃 车辆的危险人员,以及该车辆车主、主副驾、一段时间内高频驾驶人员等的图谱分析
教育经历
2012-07-01 - 2016-07-01安徽师范大学通信工程本科
技能
1、 SparkStreaming + Kafka 消费车辆抓拍数据入 hive 表 2、 通过 Spark 根据车辆历史抓拍数据,历史现场核查情况等将每类车辆划分为高、中、低 三个风险级别 3、 对高风险级的车辆进行实时追踪,轨迹预测、信号灯堵控、出行高频点、落脚点分析以 及溯源行驶轨迹追踪 4、 对于进出城、首次进城等分析,自动识别与预警高危疫情车辆,并对其出行规律,轨 迹、活跃度、落脚点进行分析研判,支撑车辆的布控核查、现场检查站岗位部署和应急时间的决策指挥
1、 支持多种 datasource/sink,多数据源混算 2、 spark 常驻服务,基于 zookeeper 的引擎自动发现,通过 akka 进行网络通信任务提交 3、负载均衡,多个引擎随机执行 4、采用 spark 的 FAIR 调度,避免资源被大任务独占 5、基于 spark 的动态资源分配,在无任务的情况下不会占用 executor 资源 6、基于 Structured Streaming 实现 SQL 动态添加流 7、支持的数据源: hdfs、 hive、 hbase、 kafka、 mysql、 es、 solr、 mongo 8、支持的文件格式: parquet、 csv、 orc、 json、 text、 xml