柯南DBA-程序员客栈

1月前来过

D级

大数据开发工程师

北京

全职 · 800/日 · 17400/月信用一般

工作时间: 工作日08:00-06:00工作地点: 远程

服务企业: 0家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

我是程序员客栈的柯南，一名大数据开发工程师；

我毕业于河北科技大学，担任过北京千乘科技有限公司的大数据开发工程师兼研发主管，担任过北京翼欧教育有限公司的大数据开发工程师；

负责过内蒙二期离线指标分析项目，同济大学多维孪生映射平台，郑州大学数据中心项目，重庆大学实时指标分析项目；

熟练使用Hadoop，Kafka，Flume，MySQL，Maxwell，DataX，Flink API，Hive，Superset、DolphinScheduler；

如果我能帮上您的忙，请点击“立即预约”或者“发布需求”！

2022-08-08 -2024-08-30北京千乘科技有限公司大数据开发工程师
1、熟悉 Kafka 的基本架构、集群部署以及参数优化，可以通过灵活调整 Kafka 相关配置，来满足平时的数据传输以及高峰期数据的安全可靠； 2、熟练掌握 Hive 的基本架构，能够熟练使用 HiveSQL 对数据进行分析，熟悉 Hive 中常见的系统函数和窗口函数，基本掌握 Hive 的优化； 3、熟悉 Flink 底层 API 的使用， Flink 的状态机制、时间语义、WaterMark 机制和 Flink 中的窗口； 4、熟练掌握 ClickHouse ，熟悉各个引擎的使用，熟练配置副本和分片集群； 5、熟悉 MaxWell，DataX 以及 FlinkCDC ，用来完成 Hadoop 集群与传统数据库之间数据的导入和导出； 6、了解使用 Redis 的分布式锁、哨兵模式，能够使用 Redis 对数据进行缓存； 7、了解 ElasticSearch +Kibana 分布式搜索引擎框架，了解 IK 分词器基本原理； 8、熟悉工作流任务调度器 DolphinScheduler 的使用流程，以及任务挂掉后的解决方案； 9、熟悉大数据可视化报表工具
2020-05-01 -2022-07-31北京翼欧教育有限公司大数据开发工程师
1、熟悉 Linux 操作系统，熟悉常用的高级命令，能够分析并编写简单的 Shell 脚本； 2、熟悉 Hadoop 生态圈，熟悉 Hadoop 集群的搭建，熟悉 HDFS 架构和读写流程、Yarn 的工作机制，shuffle 机制以及优化，熟悉 Hadoop 集群的简单调优，常见错误以及解决方案； 3、熟悉 JavaSE 开发语言，了解 Scala 和 Python 语言； 4、熟悉 Flume 搭建数据采集通道，熟悉 Flume 的三大组件，熟悉 Flume 拦截器的编写及使用； 5、熟悉 Kafka 的基本架构、集群部署以及参数优化，可以通过灵活调整 Kafka 相关配置，来满足平时的数据传输以及高峰期数据的安全可靠；

2017-09-01 - 2021-06-30河北科技大学材料科学与工程本科

Kafka

Hadoop

HDFS

Java

MySQL

作品

内蒙二期大数据离线指标分析平台

项目描述: 本项目基于Hadoop生态圈进行搭建，主要用于处理海量日志数据和业务数据，通过数据采集、清洗、业务筛选、数据处理等流程、最终得到有价值、清晰、直观的数据报表、以便于用户根据数据得到下一步的决策。技术栈: Flume、Kafka、Hadoop、Hive、Spark、Maxwell、DataX、MySQL、Superset、DolphinScheduler 个人职责: 1、技术选型与框架搭建：评估Hadoop生态群的离线处理框架，最终选定Hive+Spark作为核心组件，搭建起稳定可靠的离线数仓平台。 2、系统架构设计：负责整体架构设计，包括数据采集、数据清洗以及数据处理层的设计与实现，确保系统的高性能和高可用性。 3、业务理解与指标分析：根据用户需要，结合智慧交通常用分析指标，对内蒙东站附近数据进行分析，筛选出适合的离线分析指标。 4、功能研发与测试：负责离线数仓架构搭建，hive数仓指标的开发任务，协助前端同事开发可视化大屏功能。技术描述： 1. 日志数据通过Nginx 实现负载均衡，将日志数据经由Flume发送到 Kafka ，业务数据存储在 MySQL ； 2. 使用Flume进行了日志采集，通过自定义拦截器对数据进行清洗，以及解决数据的零点漂移问题，并且对落盘到HDFS的小文件问题进行了处理； 3. 首日的业务数据通过DataX实现HDFS和MySQL数据库之间的导入导出，并且对Null存储问题，数据一致性问题进行了解决； 4. 每日的业务数据通过Maxwell将MySQL中的业务数据导入到Kafka，进行增量同步； 5. 数据由Flume进入Kafka，对上游海量数据起到缓冲作用，同时采用多副本加acks=-1来保证数据完整可靠，采用幂等加事务来保证数据的精确一次性； 6. 数仓业务处理过程使用Hive架构+Spark引擎的模式，满足大规模计算的同时有效提高计算效率，针对常见故障进行优化，例如小文件，数据倾斜等； 7. ODS层数据不做处理进行备份，创建分区表同时压缩；DWD层对数据进行清洗，脱敏处理；DIM层用于存放维度数据以及维度退化；DWS层对相同维度相同业务周期的数据进行预聚合；ADS层进行指标的相关分析； 8. 使用DataX将ADS层的数据导入到MySQL中，用Superset对接MySQL，通过仪表盘展示统计分析结果； 9. 把各项操作封装成Shell脚本，使用DolphinScheduler调度Shell脚本，并集成第三方告警平台，实现任务失败通知； 10. 使用Cloudera Manager监控集群的各个组件的健康状况。

2024-10-30 13:15

下载次数：0

￥10000

智慧交通大数据实时指标分析平台

项目描述：本项目是基于Flink开发的实时数仓，出于客户业务的需要，获取任务开始期间智慧车辆行驶相关指标的实时变化，以便于及时调整车辆参数。整体项目难度较大，需要保证高可用、高吞吐、低延迟、结果的准确性以及良好的容错性。技术栈: Flume、Maxwell、Kafka、Zookeeper、Flink、MySQL、HBase、Phoenix、Redis、ClinkHouse、Hadoop 个人职责: 1、技术选型与框架搭建：评估多种实时数据处理技术，最终选定Kafka、Flink作为核心组件，搭建起稳定可靠的数据分析框架。 2、系统架构设计：负责整体架构设计，包括数据采集、数据清洗以及数据处理层的设计与实现，确保系统的高性能和高可用性。 3、业务理解与指标分析：根据用户需要，从安全、高效、节能和舒适四个方面展开，深入理解指标实现的意义和途径，梳理实现指标需要的数据。 4、功能研发与测试：负责部分指标的开发任务，配合测试同事制定每个指标的测试用例，确保系统开发效率。技术描述： 1. 日志数据通过 Nginx 实现负载均衡，将日志数据发送到 Kafka 中，业务数据存储在 MySQL 中，使用 Maxwell 实时监控抓取 MySQL 数据发送到 Kafka； 2. 使用Flume把从日志服务器接收的日志数据进行简单的 ETL 数据清洗； 3. 从 Kafka 读取日志数据进行分流，实现数据拆分，写入不同的 Kafka 主题中； 4. 根据 MaxWell 给我们封装的数据结构提前在数据库中创建一张配置表； 5. 通过 FlinkCDC 动态监控配置表的变化，以流的形式将配置表的变化读到程序中； 6. 通过 Flink 进行双流 Join 组合实现订单宽表； 7. 外部数据源通过 Redis 实现旁路缓冲，加快查询效率； 8. 将维度关联引入异步查询，将 IO 操作异步化，使单个并行可以连续发送多个请求，不需要阻塞式等待，大大提高流处理效率； 9. 利用 FlinkCEP 对流中数据进行匹配，实现车辆掉线检测以及5S内连续3次登录报警； 10. 利用 IntervalJoin 管理流状态时间，实现停车费支付宽表，保证当支付到达时订单明细还保存在状态中； 11. 将多条流通过 union 进行合并，指定水位线，分组开窗聚合，写入到 ClickHouese； 12. 提供一个数据接口用来查询 ClickHouse 中的数据，进行可视化展示。

2024-10-30 13:15

下载次数：0

￥10000

更新于: 2024-10-28 浏览: 121

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐