工作经历
2021-09-13 -至今江苏西格大数据开发
工业大数据 处理数采数据。 平台搭建+功能实现。 离线调度+实时数据处理。 日常维护。
2019-09-20 -2021-09-09南京汉图大数据工程师
参与业务设计、架构设计。离线分析+实时处理。 平台从0到1的实现。 日常的维护。
教育经历
2016-09-01 - 2020-05-13三江学院计算机科学与技术本科
技能
项目描述:根据答题结果对用户知识点掌握程度进行预测,进而实现 自测题推荐的智慧推题系统。 项目使用flume对用户答题日志进行收集,然后进入kafka中,sparkStreaming消费kafka中的数据,统计用户答题结果, 计算对知识点的掌握程度,然后采用SparkML离线预测用户全部知识点的掌握程度,以此推荐给用户合适的试题。预测阶段采 用的是相似矩阵算法,预测用户对知识点的掌握情况。 主要职责: 负责数据采集; SparkStreaming 处理统计日志数据,并将保存; 调用SparkML 库通过计算相似矩阵预测学员其他知识点的掌握程度。
系统架构:hadoop+spark+hive+kafka+flink 项目描述: 目的是通过数据的碰撞,探索目前地方旅游业的未知问题,分析和挖掘市场需求,从而提高决策能力,创新管理模式,改 变商业模式催生产品和服务的创新。 核心功能: 离线部分: 基于已有数据对区域范围内的旅游产品分析展示; 定时监控舆情信息; 实时部分 基于核心业务数据(旅游订单、酒店住宿等)的相关实时计算指标、实时展示; 基于埋点数据,对用户行为数据进行实时分析展示; 基于用户异常数据监控并报警展示。
实时+离线大数据平台,实现工业设备的实时监控,数据分析汇总。 项目从平台搭建到设计,全程参与实现,从0到1,几乎一人实现。 kafka+flink+HBase+redis+doris+DolphinScheduler 实时采集工厂设备的信息,flink实时处理到doris库,DolphinScheduler定时汇总出结果表。原项目采用storm+mysql的方式,进行了全新改造。 ①改造原始框架、设计新框架 ②环境搭建设计、部署 ③数据处理逻辑优化,减少对redis的依赖 ④DolphinScheduler部署使用,利用doris的性能,减少代码处理数据 ⑤flink采用Scala编写、部署 ⑥sql编写,用于后端查询数据,减少后端计算数据的压力 ⑦手写数据迁移工具,从mysql到doris