个人介绍
我是程序员客栈的柯南,一名大数据开发工程师;
我毕业于河北科技大学,担任过北京千乘科技有限公司的大数据开发工程师兼研发主管,担任过北京翼欧教育有限公司的大数据开发工程师;
负责过内蒙二期离线指标分析项目,同济大学多维孪生映射平台,郑州大学数据中心项目,重庆大学实时指标分析项目;
熟练使用Hadoop,Kafka,Flume,MySQL,Maxwell,DataX,Flink API,Hive,Superset、DolphinScheduler;
如果我能帮上您的忙,请点击“立即预约”或者“发布需求”!
工作经历
2022-08-08 -2024-08-30北京千乘科技有限公司大数据开发工程师
1、熟悉 Kafka 的基本架构、集群部署以及参数优化,可以通过灵活调整 Kafka 相关配置,来满足平时的数据传输以及高峰期数据的安全可靠; 2、熟练掌握 Hive 的基本架构,能够熟练使用 HiveSQL 对数据进行分析,熟悉 Hive 中常见的系统函数和窗口函数,基本掌握 Hive 的优化; 3、熟悉 Flink 底层 API 的使用, Flink 的状态机制、时间语义、WaterMark 机制和 Flink 中的窗口; 4、熟练掌握 ClickHouse ,熟悉各个引擎的使用,熟练配置副本和分片集群; 5、熟悉 MaxWell,DataX 以及 FlinkCDC ,用来完成 Hadoop 集群与传统数据库之间数据的导入和导出; 6、了解使用 Redis 的分布式锁、哨兵模式,能够使用 Redis 对数据进行缓存; 7、了解 ElasticSearch +Kibana 分布式搜索引擎框架,了解 IK 分词器基本原理; 8、熟悉工作流任务调度器 DolphinScheduler 的使用流程,以及任务挂掉后的解决方案; 9、熟悉大数据可视化报表工具
2020-05-01 -2022-07-31北京翼欧教育有限公司大数据开发工程师
1、熟悉 Linux 操作系统,熟悉常用的高级命令,能够分析并编写简单的 Shell 脚本; 2、熟悉 Hadoop 生态圈,熟悉 Hadoop 集群的搭建,熟悉 HDFS 架构和读写流程、Yarn 的工作机制,shuffle 机制以及优化,熟悉 Hadoop 集群的简单调优,常见错误以及解决方案; 3、熟悉 JavaSE 开发语言,了解 Scala 和 Python 语言; 4、熟悉 Flume 搭建数据采集通道,熟悉 Flume 的三大组件,熟悉 Flume 拦截器的编写及使用; 5、熟悉 Kafka 的基本架构、集群部署以及参数优化,可以通过灵活调整 Kafka 相关配置,来满足平时的数据传输以及高峰期数据的安全可靠;
教育经历
2017-09-01 - 2021-06-30河北科技大学材料科学与工程本科
资质认证
技能
项目描述: 本项目基于Hadoop生态圈进行搭建,主要用于处理海量日志数据和业务数据,通过数据采集、清洗、业务筛选、数据处理等流程、最终得到有价值、清晰、直观的数据报表、以便于用户根据数据得到下一步的决策。 技术栈: Flume、Kafka、Hadoop、Hive、Spark、Maxwell、DataX、MySQL、Superset、DolphinScheduler 个人职责: 1、技术选型与框架搭建:评估Hadoop生态群的离线处理框架,最终选定Hive+Spark作为核心组件,搭建起稳定可靠的离线数仓平台。 2、系统架构设计:负责整体架构设计,包括数据采集、数据清洗以及数据处理层的设计与实现,确保系统的高性能和高可用性。 3、业务理解与指标分析:根据用户需要,结合智慧交通常用分析指标,对内蒙东站附近数据进行分析,筛选出适合的离线分析指标。 4、功能研发与测试:负责离线数仓架构搭建,hive数仓指标的开发任务,协助前端同事开发可视化大屏功能。 技术描述: 1. 日志数据通过Nginx 实现负载均衡,将日志数据经由Flume发送到 Kafka ,业务数据存储在 MySQL ; 2. 使用Flume进行了日志采集,通过自定义拦截器对数据进行清洗,以及解决数据的零点漂移问题,并且对落盘到HDFS的小文件问题进行了处理; 3. 首日的业务数据通过DataX实现HDFS和MySQL数据库之间的导入导出,并且对Null存储问题,数据一致性问题进行了解决; 4. 每日的业务数据通过Maxwell将MySQL中的业务数据导入到Kafka,进行增量同步; 5. 数据由Flume进入Kafka,对上游海量数据起到缓冲作用,同时采用多副本加acks=-1来保证数据完整可靠,采用幂等加事务来保证数据的精确一次性; 6. 数仓业务处理过程使用Hive架构+Spark引擎的模式,满足大规模计算的同时有效提高计算效率,针对常见故障进行优化,例如小文件,数据倾斜等; 7. ODS层数据不做处理进行备份,创建分区表同时压缩;DWD层对数据进行清洗,脱敏处理;DIM层用于存放维度数据以及维度退化;DWS层对相同维度相同业务周期的数据进行预聚合;ADS层进行指标的相关分析; 8. 使用DataX将ADS层的数据导入到MySQL中,用Superset对接MySQL,通过仪表盘展示统计分析结果; 9. 把各项操作封装成Shell脚本,使用DolphinScheduler调度Shell脚本,并集成第三方告警平台,实现任务失败通知; 10. 使用Cloudera Manager监控集群的各个组件的健康状况。
项目描述:本项目是基于Flink开发的实时数仓,出于客户业务的需要,获取任务开始期间智慧车辆行驶相关指标的实时变化,以便于及时调整车辆参数。整体项目难度较大,需要保证高可用、高吞吐、低延迟、结果的准确性以及良好的容错性。 技术栈: Flume、Maxwell、Kafka、Zookeeper、Flink、MySQL、HBase、Phoenix、Redis、ClinkHouse、Hadoop 个人职责: 1、技术选型与框架搭建:评估多种实时数据处理技术,最终选定Kafka、Flink作为核心组件,搭建起稳定可靠的数据分析框架。 2、系统架构设计:负责整体架构设计,包括数据采集、数据清洗以及数据处理层的设计与实现,确保系统的高性能和高可用性。 3、业务理解与指标分析:根据用户需要,从安全、高效、节能和舒适四个方面展开,深入理解指标实现的意义和途径,梳理实现指标需要的数据。 4、功能研发与测试:负责部分指标的开发任务,配合测试同事制定每个指标的测试用例,确保系统开发效率。 技术描述: 1. 日志数据通过 Nginx 实现负载均衡,将日志数据发送到 Kafka 中,业务数据存储在 MySQL 中,使用 Maxwell 实时监控抓取 MySQL 数据发送到 Kafka; 2. 使用Flume把从日志服务器接收的日志数据进行简单的 ETL 数据清洗; 3. 从 Kafka 读取日志数据进行分流,实现数据拆分,写入不同的 Kafka 主题中; 4. 根据 MaxWell 给我们封装的数据结构提前在数据库中创建一张配置表; 5. 通过 FlinkCDC 动态监控配置表的变化,以流的形式将配置表的变化读到程序中; 6. 通过 Flink 进行双流 Join 组合实现订单宽表; 7. 外部数据源通过 Redis 实现旁路缓冲,加快查询效率; 8. 将维度关联引入异步查询,将 IO 操作异步化,使单个并行可以连续发送多个请求,不需要阻塞式等待,大大提高流处理效率; 9. 利用 FlinkCEP 对流中数据进行匹配,实现车辆掉线检测以及5S内连续3次登录报警; 10. 利用 IntervalJoin 管理流状态时间,实现停车费支付宽表,保证当支付到达时订单明细还保存在状态中; 11. 将多条流通过 union 进行合并,指定水位线,分组开窗聚合,写入到 ClickHouese; 12. 提供一个数据接口用来查询 ClickHouse 中的数据,进行可视化展示。