个人介绍
五年开发经验,2年java后端,3年大数据
l 大数据技能:
Ø 熟练掌握hadoop架构组成,集群搭建,调优,数据压缩,源码编译
Ø 熟练掌握hdfs架构组成,元数据管理流程,读写流程,api操作,常用命令
Ø 熟练掌握mapreduce作业提交全流程,内核源码,shuffle原理,shuffle调优
Ø 熟练掌握yarn基本架构,核心组件,调度策略
Ø 熟练掌握hive安装部署,架构组成,数据类型,表类型,hql语句,行列转换,窗口函数,日期函数,rank函数,自定义udf、udaf、udtf,hive调优,动态分区,熟悉kettle
Ø 熟悉presto使用,优化,了解kylin、impala、druid
Ø 熟练掌握hbase安装部署,架构组成,数据结构,读写流程,rowkey设计,shell和java api操作,了解phoenix安装和使用
Ø 熟练掌握elasticsearch、kibana 和java api的使用
Ø 熟练掌握scala函数式编程、面向对象、集合操作
Ø 熟练掌握spark架构组成,部署模式,基于yarn-cluster的任务提交全流程,stage级别调度,task级别调度,shullfe原理,内存管理,性能调优, troubleshooting
Ø 熟练掌握spark core rdd编程,transformation和action算子,rdd特点,函数传递,依赖关系,DAG的划分,缓存,checkpoint,数据读取与保存,累加器,广播变量
Ø 熟练掌握spark sql、DataFrame、DataSet编程
Ø 熟练掌握spark streaming编程,Dstream无状态和有状态转换,窗口函数,transform,掌握与kafka的direct方式,消息顺序消费,保证exactly once语义,熟悉与kafka对接限流与反压机制
Ø 了解python,会使用pyspider爬虫框架进行数据爬取
Ø 熟练掌握linux命令,会编写shell脚本,熟悉 awk、sed、cut、sort
Ø 熟练掌握zookeeper集群部署、选举机制、监听原理、节点类型、应用场景、以及常用命令
Ø 熟练掌握kafka集群部署,整体架构、消息生产、保存、消费原理,分区策略,顺序消费,命令行操作,高级和低级API的使用,理解ack消息语义
Ø 熟练掌握flume部署,架构组成,事务机制,参数调优
Ø 熟练掌握sqoop安装,使用,工作原理,常用命令
Ø 熟练掌握Azkaban安装部署,架构组成和job工作流创建,熟悉Oozie
Ø 熟悉CDH版本大数据集群安装,集群监控、熟悉Ambari+HDP
l JavaEE技能:
Ø 熟练掌握Java初级知识以及高级知识,集合、IO、多线程、线程池、锁,常用设计模式,JVM内存结构以及GC原理,常用数据结构和排序算法
Ø 熟练使用SpringMVC、Spring、Mybatis 进行开发,熟悉SpringMVC的工作流程,熟悉Spring的IOC和AOP特性
Ø 熟练使用Mysql、Redis
Ø 熟练使用Eclipse、IDEA、Maven进行开发,熟练使用Git、SVN代码管理工具
Ø 熟悉html、div、css、Js、JQuery等前端技能
工作经历
2017-04-09 -至今北京百分点信息科技有限公司大数据开发
一: 负责部分用户行为hive数仓搭建和指标分析 1)ODS层:创建启动日志表和事件日志表,编写shell脚本按照指定日期从hdfs加载日志数据到启动日志表和事件日志表的对应分区中(原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理) 2) DWD层: a 创建启动日志表,通过get_json_object函数解析日志,导入数据到对应的日期分区中 b 创建基础明细表,自定义udf解析解析公共字段,自定义udtf解析事件数组,配合lateral view侧视图函数,把单行数据拆解成多行的数据结果集。 c 从基础明细表中根据事件类型解析数据到具体的事件表:商品点击、详情、列表、广告、消息通知、用户前台活跃、用户后台活跃、评论、收藏、点赞、错误日志等。 对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式) 3)DWS层(明细表):统计日活、周活、月活、每日新增、1天2天3天n天用户留存等明细数据 4)ADS层(指标分析):根据DWS层明细表按照不同维度做聚合统计,分析出具体的日活、周活、月活数,添加是否是周末、是否
教育经历
2011-09-01 - 2015-04-06武汉轻工大学食品科学与工程本科
11年到15年在武汉轻工大学读本科,一直对计算机感兴趣