个人介绍
工作经历
2019-08-01 -2020-07-01兰石集团大数据开发
主要负责兰石集团大数据开发相关工作,处理能源管理系统底层数据仓库设计,数据处理,以及上层报表和bi制作,制定数据处理相关指标
教育经历
2013-09-01 - 2017-07-01福州大学至诚学院材料科学与工程本科
在校期间学习专业知识的同时学习计算机相关知识,大四进入互联网公司实习,
技能
兰石集团物联网系统是由兰石集团信息化与智能制造部主持建造,服务对象为兰石集团各生产单位。数据来源涵盖集团所有的生产和管理系统,建立从业务层到管理层到决策层的智能分析体系,模拟量化风险和收益,实现对集团各种业务数据进行分类、管理、统计和分析等功能,给各级管理人员提供各类准确的统计分析预测数据,使其能够及时掌握全面的经营状况,为宏观决策提供支持;为基层业务人员提供详尽的数据,供其对各自的工作目标、当前和历史状况进行准确的把握,对业务活动进行有效支撑;满足集团经营管理及决策支持,解决多类工业设备接入、多源工业数据集成、海量数据管理与处理、工业数据建模分析、工业应用创新与集成、工业知识积累迭代实现等一系列问题。 负责内容 数据通过mqtt回传进openTSDB数据库,连接本地历史数据库,拿到离线数据,使用sparkSQL进行数据清洗治理和计算工作,将计算结果存入结果表,通过FineReport报表展示工具进行报表化展示,返回结果给前端人员展示在物联网平台上。 通过flume自定义source插件,采集rabbitMQ数据,接入kafka消息队列,通过kafka对接到hadoop相关组件,采用sparkStreaming进行实时数据分析,将结果写入库中供后端人员调用。 维护集群日常运行,使用CDH监控集群状态,spark代码上线,spark任务提交 使用技术 Flume、HDFS、Sparksql、Hive、Mysql、Sqoop、Kafka、Kettle、yarn、redis、hbase、zookeeper 离线数据处理 1. 从本地数据库拿到离线数据,接入spark 2. 编写Sparksql程序对原始日志数据进行处理,包括清洗,分类,滤除脏数据,并且通过sparkSQL计算相关数据,包括同环比,折标煤等数据。 3. 数据写出到本地数据库,配置增量分析读取数据,写入数据追加写入 4. 使用FineReport连接本地数据,拿到离线数据的分析结果,并且通过FineReport展示,将展示结果给到前端人员展示在前端页面
兰石集团物联网系统是由兰石集团信息化与智能制造部主持建造,服务对象为兰石集团各生产单位。数据来源涵盖集团所有的生产和管理系统,建立从业务层到管理层到决策层的智能分析体系,模拟量化风险和收益,实现对集团各种业务数据进行分类、管理、统计和分析等功能,给各级管理人员提供各类准确的统计分析预测数据,使其能够及时掌握全面的经营状况,为宏观决策提供支持;为基层业务人员提供详尽的数据,供其对各自的工作目标、当前和历史状况进行准确的把握,对业务活动进行有效支撑;满足集团经营管理及决策支持,解决多类工业设备接入、多源工业数据集成、海量数据管理与处理、工业数据建模分析、工业应用创新与集成、工业知识积累迭代实现等一系列问题。 负责内容 数据通过mqtt回传进openTSDB数据库,连接本地历史数据库,拿到离线数据,使用sparkSQL进行数据清洗治理和计算工作,将计算结果存入结果表,通过FineReport报表展示工具进行报表化展示,返回结果给前端人员展示在物联网平台上。 通过flume自定义source插件,采集rabbitMQ数据,接入kafka消息队列,通过kafka对接到hadoop相关组件,采用sparkStreaming进行实时数据分析,将结果写入库中供后端人员调用。 维护集群日常运行,使用CDH监控集群状态,spark代码上线,spark任务提交 使用技术 Flume、HDFS、Sparksql、Hive、Mysql、Sqoop、Kafka、Kettle、yarn、redis、hbase、zookeeper 实时数据处理 1. 由于公司使用rabbitMQ作为mqtt的消息队列,已知rabbitMQ对hadoop相关组件的兼容度较低,考虑到后面数据需要尽可能使用hadoop相关组件,所以使用自定义source配合Flume采集原始日志数据,汇聚传输到kafka 2. 配置kafka使用环境 3. 利用SparkStreaming接收kafka数据 4. 根据需求开发 ETL 分析语句,使用SparkStreaming分析得出设备水电气的相关用量和实时状态的统计结果 5. 将sparkStreaming处理后的数据存储到HBase,HBase使用Phoenix封装。
兰石集团数据仓库主要面向目前兰石集团构建的ERP、MES、OA等系统,以及在这些系统中流转的数据作为继财务、人才、技术的新一种资产,还未被重视与利用,且体量庞大。大量的数据分散在各个业务系统、各级部门,且有很多仍旧在进行手工记录处理,缺少对数据集中管理、加工、利用、存储的规范。对企业内大量数据无法做到收集与积累,缺乏通过数据来推动业务改善、提升管理的有效手段。且各个系统间数据无法做到互通共享,无法有效利用,形成了数据孤岛。该项目主要以数据仓库体系为主,构建数据模型、完成数据治理工作、梳理数据业务、完成主数据与元数据的梳理,为即席查询报表体系、驾驶舱辅助决策体系提供数据支撑,同时,为将来构建数据中台打造良好的数据基础。 负责内容 参与数据仓库主题域划分,使用维度建模,各个主题下数仓模型设计与搭建。参与能源管理主题的业务梳理。参与数据治理工作的代码开发。负责数据可视化工作的报表、驾驶舱设计。 使用技术 rabbitMQ、sparkSQL、Hive、Mysql、Sqoop、Hadoop、Yarn、CDH、Ureport、FineReport、FineBI