丁龙-北京Java-程序员客栈

1月前来过

D级

大数据开发工程师

北京

全职 · 1500/日 · 32625/月信用正常

工作时间: 工作日09:00-17:00、周末09:00-17:00工作地点: 北京远程

服务企业: 0家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

Ø 深刻理解Hdfs分布式文件系统存储结构和高可用原理

Ø 熟练掌握Hadoop MapReduce计算框架编程，对yarn的资源调度，作业监控有一定认识

Ø 掌握Storm编程，深刻了解Spark底层运行机制，

Ø 掌握使用Flume日志采集结合Kafka、SparkStorm实现实时计算业务

Ø 熟练使用Hive对Hdfs数据离线分析、Impala查询，并结合Sqoop对数据进行导入导出

Ø 理解Hbase的存储原理，Hbase存储架构，实现数据的毫秒检索

Ø 掌握redis内存数据库的基本原理，实现数据的毫秒查询

Ø 熟悉Scala语言、python语言、shell编程，熟练使用linux常用命令

Ø 熟悉MapReduce、Spark、Storm等计算框架并了解运行机制

Ø 熟悉Solr、ElasticSearch给数据建立索引

Ø 熟悉Docker、Alluxio

Ø 熟练使用CDH对集群进行监控管理，熟悉Ganglia，可用于监控集群服务器的运行状况

Ø 熟悉Kettle工具、熟悉使用Ooize调度hadoop任务

了解Mahout协同过滤算法，了解Kylin相关数据建模知识

2018-07-01 -至今杭州在信科技有限公司北京分公司大数据开发工程师
负责Java后端接口开发参与多个大数据项目前期项目分析，负责编写MR对原始数据清洗并加载到Hive表。负责编写hive 语句，shell脚本对离线数据处理。
2014-07-01 -2018-04-05北京联创慧科信息技术有限公司Java兼大数据开发工程师
负责Java后端接口开发参与多个大数据项目前期项目分析，负责编写MR对原始数据清洗并加载到Hive表。负责编写hive 语句，shell脚本对离线数据处理。

2017-03-01 - 2021-01-01北京科技大学计算机应用技术专科
北京科技大学北京科技大学北京科技大学北京科技大学

Java

作品

移动终端上网数据离线分析处理系统（电信项目）(2016.01-2016.07)

项目名称：移动终端上网数据离线分析处理系统（电信项目）(2016.01-2016.07) 开发环境：Eclipse、Jdk1.7、Maven 主要技术：HDFS、Mapreduce、Hive、Spark、SparkStreaming、Sqoop、Impala、Oozie 项目介绍：数据源端通过ftp服务将用户上网记录以文件的形式，上传到我们的采集机对应的目录下，通过脚本定时将数据Put到Hdfs上。编写MapReduce对电信的离线话单数据进行分析，统计用户使用业务（流量套餐、话费套餐、铃声套餐等）情况，感知用户使用行为和使用习惯，确定移动业务推广走向的一套系统。使用Oozie调度。主要统计的指标有： 1、通话时长和流量统计，最长延迟1小时。 2、app下载Top N排名，每小时统计一次。 3、业务使用量实时统计，完成业务使用量实时排名和预警。 职责描述： 1、编写shell脚本，将用户上传到采集机上的原始数据上传到hdfs上。 2、编写MapReduce代码对hdfs话单流量数据进行统计。 3、编写Spark代码离线计算App下载排名。

2023-04-20 16:40

网站日志分析系统(2016.08-2017.04)

项目名称：网站日志分析系统(2016.08-2017.04) 开发环境：Eclipse、Mysql、Maven、Jdk 主要技术：实时：Storm、Kafka、Mysql 离线分析：Flume、Hdfs、MapReduce、Redis、Hive、Sqoop、kettle、Mysql 项目介绍：根据网站的Access、UGC日志，分App维度、总的，离线统计每天的UV、PV、登录人数、次日留存和七日留存。根据用户实时产生的UGC日志，分App维度、总的，实时统计用户每分钟一次的充值和消费情况。离线分析：整个离线处理流程使用kettle监控任务并调度。 1、数据采集：将用户的Access、Ugc等日志通过Flume采集，按天和业务分目录存储到HDFS上。 2、数据清洗：每天定时通过MR清洗前一天的原始日志数据，Load到Hive表中。 3、数据分析：编写Hive语句和Shell脚本统计指标，并将统计之后的指标使用Sqoop导入到Mysql，使用Kettle将Mysql中与hive表对应的各个维度表整合到一张报表实时统计： Web服务器实时发送用户的消费、充值数据到Kafka集群，Storm使用KafkaSpout去Kafka中实时消费数据，然后每分钟计算统计结果并存入Mysql中。 职责描述：参与前期项目分析，负责编写MR对原始数据清洗并加载到Hive表。负责编写hive 语句，shell脚本对离线数据处理。

2023-04-20 16:39

实时处理平台(2017.05-2017.11)

项目名称：实时处理平台(2017.05-2017.11) 开发环境：Eclipse、JDK1.7 主要技术：Log4j、Flume、Kafka、Storm、Mysql、Hbase 项目介绍：监控比价项目中爬虫的爬行能力、每天的抓取数量、抓取一个网站需要的时间、还有抓取失败的商品数据等指标信息，项目中使用Flume、Kafka、Storm实现一个流式处理平台。项目主要分5个模块：日志数据收集层、数据缓存层、数据处理层、指标展现层、数据备份层。 1、日志数据收集层：在每台爬虫机器上部署一个Flume Agent，负责采集爬虫日志信息，并发送给Kafka集群。 2、数据缓存层：使用Kafka接收Flume的日志信息并缓存，等待Storm处理。 3、数据处理层：主要是Storm实现，对日志信息处理，统计关键性指标做汇总，定时的存入MySql中，供Web界面统计出图表。 4、指标展现层：主要使用Echarts出图表。 5、数据备份层：目的是对爬虫的原始数据进行备份。 项目问题： Storm重复消费数据问题，Storm和Kafka整合log4j实现冲突问题，为了提高Storm Bolt并行度在最终汇总出现数据不一致问题，使用zookeeper分布式共享锁解决。职责描述：负责平台环境搭建，编写Storm代码统计具体的指标存入Mysql。

2023-04-20 16:37

更新于: 2023-04-20 浏览: 186

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐