丁龙
1月前来过
全职 · 1500/日  ·  32625/月
工作时间: 工作日09:00-17:00、周末09:00-17:00工作地点: 北京远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

Ø 深刻理解Hdfs分布式文件系统存储结构和高可用原理

Ø 熟练掌握Hadoop MapReduce计算框架编程,对yarn的资源调度,作业监控有一定认识

Ø 掌握Storm编程,深刻了解Spark底层运行机制,

Ø 掌握使用Flume日志采集结合Kafka、SparkStorm实现实时计算业务

Ø 熟练使用Hive对Hdfs数据离线分析、Impala查询,并结合Sqoop对数据进行导入导出

Ø 理解Hbase的存储原理,Hbase存储架构,实现数据的毫秒检索

Ø 掌握redis内存数据库的基本原理,实现数据的毫秒查询

Ø 熟悉Scala语言、python语言、shell编程,熟练使用linux常用命令

Ø 熟悉MapReduce、Spark、Storm等计算框架并了解运行机制

Ø 熟悉Solr、ElasticSearch给数据建立索引

Ø 熟悉Docker、Alluxio

Ø 熟练使用CDH对集群进行监控管理,熟悉Ganglia,可用于监控集群服务器的运行状况

Ø 熟悉Kettle工具、熟悉使用Ooize调度hadoop任务

了解Mahout协同过滤算法,了解Kylin相关数据建模知识

工作经历

  • 2018-07-01 -至今杭州在信科技有限公司北京分公司大数据开发工程师

    负责Java后端接口开发 参与多个大数据项目前期项目分析,负责编写MR对原始数据清洗并加载到Hive表。负责编写hive 语句,shell脚本对离线数据处理。

  • 2014-07-01 -2018-04-05北京联创慧科信息技术有限公司Java兼大数据开发工程师

    负责Java后端接口开发 参与多个大数据项目前期项目分析,负责编写MR对原始数据清洗并加载到Hive表。负责编写hive 语句,shell脚本对离线数据处理。

教育经历

  • 2017-03-01 - 2021-01-01北京科技大学计算机应用技术专科

    北京科技大学北京科技大学北京科技大学北京科技大学

技能

0
1
2
3
4
5
作品
移动终端上网数据离线分析处理系统(电信项目)(2016.01-2016.07)

项目名称:移动终端上网数据离线分析处理系统(电信项目)(2016.01-2016.07) 开发环境:Eclipse、Jdk1.7、Maven 主要技术:HDFS、Mapreduce、Hive、Spark、SparkStreaming、Sqoop、Impala、Oozie 项目介绍: 数据源端通过ftp服务将用户上网记录以文件的形式,上传到我们的采集机对应的目录下,通过脚本定时将数据Put到Hdfs上。 编写MapReduce对电信的离线话单数据进行分析,统计用户使用业务(流量套餐、话费套餐、铃声套餐等)情况,感知用户使用行为和使用习惯,确定移动业务推广走向的一套系统。使用Oozie调度。主要统计的指标有: 1、通话时长和流量统计,最长延迟1小时。 2、app下载Top N排名,每小时统计一次。 3、业务使用量实时统计,完成业务使用量实时排名和预警。 职责描述: 1、编写shell脚本,将用户上传到采集机上的原始数据上传到hdfs上。 2、编写MapReduce代码对hdfs话单流量数据进行统计。 3、编写Spark代码离线计算App下载排名。

0
2023-04-20 16:40
网站日志分析系统(2016.08-2017.04)

项目名称:网站日志分析系统(2016.08-2017.04) 开发环境:Eclipse、Mysql、Maven、Jdk 主要技术: 实时:Storm、Kafka、Mysql 离线分析:Flume、Hdfs、MapReduce、Redis、Hive、Sqoop、kettle、Mysql 项目介绍: 根据网站的Access、UGC日志,分App维度、总的,离线统计每天的UV、PV、登录人数、次日留存和七日留存。根据用户实时产生的UGC日志,分App维度、总的,实时统计用户每分钟一次的充值和消费情况 。 离线分析:整个离线处理流程使用kettle监控任务并调度。 1、数据采集:将用户的Access、Ugc等日志通过Flume采集,按天和业务分目录存储到HDFS上。 2、数据清洗:每天定时通过MR清洗前一天的原始日志数据,Load到Hive表中。 3、数据分析:编写Hive语句和Shell脚本统计指标,并将统计之后的指标使用Sqoop导入到Mysql,使用Kettle将Mysql中与hive表对应的各个维度表整合到一张报表 实时统计: Web服务器实时发送用户的消费、充值数据到Kafka集群,Storm使用KafkaSpout去Kafka中实时消费数据,然后每分钟计算统计结果并存入Mysql中。 职责描述: 参与前期项目分析,负责编写MR对原始数据清洗并加载到Hive表。负责编写hive 语句,shell脚本对离线数据处理。

0
2023-04-20 16:39
实时处理平台(2017.05-2017.11)

项目名称:实时处理平台(2017.05-2017.11) 开发环境:Eclipse、JDK1.7 主要技术:Log4j、Flume、Kafka、Storm、Mysql、Hbase 项目介绍: 监控比价项目中爬虫的爬行能力、每天的抓取数量、抓取一个网站需要的时间、还 有抓取失败的商品数据等指标信息,项目中使用Flume、Kafka、Storm实现一个流式处理 平台。 项目主要分5个模块:日志数据收集层、数据缓存层、数据处理层、指标展现层、 数据备份层。 1、日志数据收集层:在每台爬虫机器上部署一个Flume Agent,负责采集爬虫日志 信息,并发送给Kafka集群。 2、数据缓存层:使用Kafka接收Flume的日志信息并缓存,等待Storm处理。 3、数据处理层:主要是Storm实现,对日志信息处理,统计关键性指标做汇总,定时的存入MySql中,供Web界面统计出图表。 4、指标展现层:主要使用Echarts出图表。 5、数据备份层:目的是对爬虫的原始数据进行备份。 项目问题: Storm重复消费数据问题,Storm和Kafka整合log4j实现冲突问题,为了提高Storm Bolt并行度在最终汇总出现数据不一致问题,使用zookeeper分布式共享锁解决。 职责描述:负责平台环境搭建,编写Storm代码统计具体的指标存入Mysql。

0
2023-04-20 16:37
更新于: 2023-04-20 浏览: 148