崔国峰
1月前来过
全职 · 300/日  ·  6525/月
工作时间: 工作日00:00-24:00、周末00:00-24:00工作地点: 远程
服务企业: 6家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

有4年的大数据开发经验,熟悉大数据技术和springboot等,对数据建模和大数据计算有丰富的经验,熟练使用FusionInsight Manger和新华三平台开发。思维敏捷,主动性高、责任心强,乐于钻研技术。

l 熟练掌握HDFS存储和YARN资源调度流程;

l 能够使用MapReduce进行海量数据的清洗和统计分析;

l 熟练使用Spark Core和Spark SQL,spark on hive ,spark on hbase进行离线数据分析

l 熟练使用Spark Streaming进行实时数据分析;

l 可以使用Flink进行实时数据分析;

l 可以使用Springboot后端框架进行后端业务开发;

l 熟练使用Flume实现不同场景的数据采集(并且掌握自定义Flume Sink等);

l 熟练使用Kafka(并且掌握使用kafka Eagle,,kafak manger等);

l 熟练使用MySQL进行数据存储;

l 熟练掌握HBase读写流程和分布式原理,按数据量和需求对HBase表进行设计等

l 熟练使用HDFS 进行数据存储;

l 熟练对Hive表进行设计和数据储存,和数仓设计;

l 熟练使用HQL进行数据分析;

l 熟练使用Redis数据库做任务中数据缓存;

l 能够使用kudu进行数据存储

l 熟练使用HDFS 进行数据存储;

l 能够使用Java进行MapReduce、Spark的业务开发;

l 能够使用Scala进行Spark的业务开发;

l 能够使用Linux常用操作命令,进行Shell简单脚本编程开发;

l 熟练使用HUE

l 熟练使用dolphinscheduler(并且掌握在dolphinscheduler上进行二次开发);

l 熟练使用FusionInsight Manger(华为云服务);

l 能够使用H3C(新华三服务);


工作经历

  • 2021-03-01 -2022-02-02北京蓝军网安科技有限公司大数据架构

    项目:成都国能大渡河大数据服务有限公司)分类分级大数据治理平台 时间:2021 - 2022 项目介绍: 该项目是公司与成都国能大渡河大数据服务有限公司合作完成。主要是帮助成都流域各个水电站的大量杂乱数据按照提前制定好的行业标准进行分类分级处理。 该项目离线数据是通过FileBeat从客户服务器进行抓取实时数据传输至数据治理平台大数据集群内kafka中间件,最大的一个主题(topic)数据量可每秒可达600条实时数据,高峰可达1000-3000条左右数据,每天一类水量数据可达亿级别数据,数据体量可达TB级别,然后实时数据通过Flink和SparkStreaming实时计算引擎,将数据清洗进实时数仓,ods->dwd->dws->ads,将数据通过分层清晰进hbase和redis,es等实时查询引擎供实时业务查询,然后再通过sparksql离线引擎将Hbase中数据按照每天的计算任务指标定时清洗进HDFS,通过Hive建立外表供机器学习和业务查询。 担任角色:大数据开发架构师 核心职责和主要成就:  1.前期项目立项书,投标书大数据部分编写。  2.中标后,大数据部分系统架构设计,开

  • 2019-01-01 -2021-01-02中数科技大数据

    项目:(中国民航信息集团)数据治理平台.实时 时间: 2019-2021 项目介绍: 该项目是跟民航合作项目,接收的是实时飞机雷达数据和飞机航班信息,气象信息,预先飞行计划报文等等,共计大约20于种数据每天的数据量大于一亿条,通过SparkSteaming跟前端页面的配置交互(20多种信息的处理方式都不一样而且会随着时间的推移有所改变,并且sparkstreaming任务不能中断,所以通过前端页面的配置信息,然后sparkStreaming任务实时更新广播变量行相应的数据解析)完成对实时数据进行解析->加工->融合->指标计算(以上都是实时处理并且延迟小于1秒)等一系列操作,并且将雷达数据实时处理成航迹信息,延迟小于500ms存储到redis完成航信大厅的页面的实时飞机展示,和存储到hbase中以便数据治理平台和其他系统的数据展示,将hbase中的数据定时清洗到hdfs中parquet格式使用hive进行关联,再使用sparksql进行数据分析,做出的数据报告存储到MySQL中,以便其他子系统进行拉取。 担任角色:大数据开发 核心职责和主要成就:  参与产品前期大数据框架探讨,并且

  • 2018-05-03 -2018-12-31勾正科技有限公司大数据

    项目:勾正·湖南IPTV数据报告 时间: 2018-2019 项目介绍: 该项目是服务与湖南IPTV电信的数据服务,纯离线式计算,主要是提供数据清洗和数据整体的统计服务,通过spark项目将杂乱而且庞大的数据进行清洗,然后计算,最后将清洗好的原始数据再次存到hdfs上面,以parquet的形式存储,计算出来的结果数据全部输出到文件中.结果数据是将用户观看的行为,订购行为等等进行统计计算,得出的数据将以PPT报告的形式呈现出来 担任角色:大数据开发工程师 核心职责和主要成就:  1.对接湖南项目负责人,每个月的月初确定本次月报的主题,以及板式和交接项目时间  2.用Scala开发编制spark项目,完成确定好的指标.  3.使用shell编制spark执行程序(按天的以及按月的指标)  4.程序执行完成,使用Python脚本读取结果数据,装入Excel表格中,再编制成PPT的报告形式交给湖南项目的负责人。 工具和技术: flume+HDFS+Scala+Slick+Sparksql+Mysql等

教育经历

  • 2016-03-01 - 2018-07-01河北经贸大学电子商务专科

    2012年九月就读北京联合大学2016年7月毕业

技能

Docker
DB2
Mongo
Redis
系统架构
架构
Kafka
Hadoop
0
1
2
3
4
5
0
1
2
3
4
5
作品
宝马CCRN用户来电分析系统

该项目是将宝马数据平台中关于所有宝马客户*回访的信息抓取到CCRN数据分析系统,通过将ods层数据进行格式化dwd层,再将数据上传至nlp分析系统将*信息切割成多份,并分析出不同维度的关键信息,再输出至本地hive数据库中,并标记为dwd_nlp。再通过sprark分析引擎,将各个分层中的数据进行业务分析并输出至ads层生成数据分析报表,每天定时运行hiveToMysql脚本将分析好的报表导出到mysql中供后端服务等各个业务系统进行使用。 担任角色:软件开发工程师 核心职责和主要成就: 1.针对业务输出的报表公式对各层数据进行报表分析。 2.设计后端业务设计表各个功能表结构及相关的关联关系及梳理。 3.后端业务核心功能开发。 4.设计powerbi报表使用试图

0
2023-04-22 00:31
(成都国能大渡河大数据有限公司)分类分级大数据治理平台

该项目是公司与成都国能大渡河大数据服务有限公司合作完成。主要是帮助成都流域各个水电站 的大量杂乱数据按照提前制定好的行业标准进行分类分级处理。 该项目离线数据是通过 FileBeat 从客户服务器进行抓取实时数据传输至数据治理平台大数据集群 内 kafka 中间件,最大的一个主题( topic)数据量可每秒可达 600 条实时数据,高峰可达 1000-3000 条左 右数据,每天一类水量数据可达亿级别数据,数据体量可达 TB 级别,然后实时数据通过 Flink 和 SparkStreaming 实时计算引擎,将数据清洗进实时数仓, ods->dwd->dws->ads,将数据通过分层清晰进 hbase 和 redis,es 等实时查询引擎供实时业务查询,然后再通过 sparksql 离线引擎将 Hbase 中数据按照每天的 计算任务指标定时清洗进 HDFS,通过 Hive 建立外表供机器学习和业务查询。

0
2023-04-23 01:35
(中国民航信息集团)数据治理平台

该项目是跟民航合作项目,接收的是实时飞机雷达数据和飞机航班信息,气象信息,预先飞行计 划报文等等,共计大约 20 于种数据每天的数据量大于一亿条,通过 SparkSteaming 跟前端页面的配置交 互( 20 多种信息的处理方式都不一样而且会随着时间的推移有所改变,并且 sparkstreaming 任务不能中 断,所以通过前端页面的配置信息,然后 sparkStreaming 任务实时更新广播变量行相应的数据解析)完 成对实时数据进行解析->加工->融合->指标计算(以上都是实时处理并且延迟小于 1 秒)等一系列操作, 并且将雷达数据实时处理成航迹信息,延迟小于 500ms存储到 redis完成航信大厅的页面的实时飞机展示, 和存储到 hbase 中以便数据治理平台和其他系统的数据展示,将 hbase 中的数据定时清洗到 hdfs 中 parquet 格式使用 hive 进行关联,再使用 sparksql 进行数据分析,做出的数据报告存储到 MySQL 中,以便其他 子系统进行拉取。 担任角色: 大数据开发 职责和成就: 1. 参与产品前期大数据框架探讨,并且制定大数据框架方案。 2. 单独开发 sparkStreaming 实时任务,并且进行优化。 3. 解决 sparkstreaming 对接 kafka 偏移量问题(自定义 sparkstreaming 对接 kafka 偏移 量的读取和提交实现消费并且只消费一次) 4. 跟前端设计商定与 sparkstreaming 任务进行交互的模板。 5. 处理在 sparkstreaming 任务在不停止的情况下跟前端页面的信息交互,完成信息更新。 6. 制定 hbase 表和 rowkey,加盐,预分区等设计。 7. 对 hive 进行数仓设计( ds,dw,dws,dwd)8. 对海量数据进行离线 sparksql 分析产生数据报告。 系统架构:kafka+SparkStreaming+Redis+kafka+hbase+hive+sparksql+mysql

0
2023-04-23 01:38
更新于: 2022-08-14 浏览: 314