帅的不明显123
1月前来过
全职 · 300/日  ·  6525/月
工作时间: 工作日21:00-23:00、周末08:00-22:00工作地点: 远程
服务企业: 1家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

五年开发经验,2年java后端,3年大数据

大数据技能:

Ø  熟练掌握hadoop架构组成,集群搭建,调优,数据压缩,源码编译

Ø  熟练掌握hdfs架构组成,元数据管理流程,读写流程,api操作,常用命令

Ø  熟练掌握mapreduce作业提交全流程,内核源码,shuffle原理,shuffle调优

Ø  熟练掌握yarn基本架构,核心组件,调度策略

Ø  熟练掌握hive安装部署,架构组成,数据类型,表类型,hql语句,行列转换,窗口函数,日期函数,rank函数,自定义udf、udaf、udtf,hive调优,动态分区,熟悉kettle

Ø 熟悉presto使用,优化,了解kylin、impala、druid

Ø  熟练掌握hbase安装部署,架构组成,数据结构,读写流程,rowkey设计,shell和java api操作,了解phoenix安装和使用

Ø  熟练掌握elasticsearch、kibana 和java api的使用

Ø  熟练掌握scala函数式编程、面向对象、集合操作

Ø  熟练掌握spark架构组成,部署模式,基于yarn-cluster的任务提交全流程,stage级别调度,task级别调度,shullfe原理,内存管理,性能调优, troubleshooting

Ø  熟练掌握spark core rdd编程,transformation和action算子,rdd特点,函数传递,依赖关系,DAG的划分,缓存,checkpoint,数据读取与保存,累加器,广播变量

Ø  熟练掌握spark sql、DataFrame、DataSet编程

Ø  熟练掌握spark streaming编程,Dstream无状态和有状态转换,窗口函数,transform,掌握与kafka的direct方式,消息顺序消费,保证exactly once语义,熟悉与kafka对接限流与反压机制

Ø  了解python,会使用pyspider爬虫框架进行数据爬取

Ø  熟练掌握linux命令,会编写shell脚本,熟悉 awk、sed、cut、sort

Ø  熟练掌握zookeeper集群部署、选举机制、监听原理、节点类型、应用场景、以及常用命令

Ø  熟练掌握kafka集群部署,整体架构、消息生产、保存、消费原理,分区策略,顺序消费,命令行操作,高级和低级API的使用,理解ack消息语义

Ø  熟练掌握flume部署,架构组成,事务机制,参数调优

Ø  熟练掌握sqoop安装,使用,工作原理,常用命令

Ø  熟练掌握Azkaban安装部署,架构组成和job工作流创建,熟悉Oozie

Ø  熟悉CDH版本大数据集群安装,集群监控、熟悉Ambari+HDP

JavaEE技能

Ø 熟练掌握Java初级知识以及高级知识,集合、IO、多线程、线程池、锁,常用设计模式,JVM内存结构以及GC原理,常用数据结构和排序算法

Ø 熟练使用SpringMVC、Spring、Mybatis 进行开发,熟悉SpringMVC的工作流程,熟悉Spring的IOC和AOP特性

Ø 熟练使用Mysql、Redis

Ø 熟练使用Eclipse、IDEA、Maven进行开发,熟练使用Git、SVN代码管理工具

Ø 熟悉html、div、css、Js、JQuery等前端技能

工作经历

  • 2017-04-09 -至今北京百分点信息科技有限公司大数据开发

    一: 负责部分用户行为hive数仓搭建和指标分析 1)ODS层:创建启动日志表和事件日志表,编写shell脚本按照指定日期从hdfs加载日志数据到启动日志表和事件日志表的对应分区中(原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理) 2) DWD层: a 创建启动日志表,通过get_json_object函数解析日志,导入数据到对应的日期分区中 b 创建基础明细表,自定义udf解析解析公共字段,自定义udtf解析事件数组,配合lateral view侧视图函数,把单行数据拆解成多行的数据结果集。 c 从基础明细表中根据事件类型解析数据到具体的事件表:商品点击、详情、列表、广告、消息通知、用户前台活跃、用户后台活跃、评论、收藏、点赞、错误日志等。 对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式) 3)DWS层(明细表):统计日活、周活、月活、每日新增、1天2天3天n天用户留存等明细数据 4)ADS层(指标分析):根据DWS层明细表按照不同维度做聚合统计,分析出具体的日活、周活、月活数,添加是否是周末、是否

教育经历

  • 2011-09-01 - 2015-04-06武汉轻工大学食品科学与工程本科

    11年到15年在武汉轻工大学读本科,一直对计算机感兴趣

技能

Hive
zk,kafka,es等周边组件
java,scala
Hadoop
Spark
0
1
2
3
4
5
0
1
2
3
4
5
作品
国家新闻出版社广电

近年来,国家广电总局无线局通过持续多年的信息化建设,通过人员信息整合,快速查看人员明细,了解人员的完整档案;通过机构信息整合,快速跟进机构变动、结构调整动向;通过固定资产信息整合,辅助预算决策,降低管理成本。

0
百分点DMP系统

网络和智能终端的普及带来了海量人群的上网行为数据,投放也需要更精准的区分。时间、地区、季节、节日、天气....大量的因素,大量的数据交织在一起,细分研究各类因素,利用大数据为广告主创造更高价值。利用DMP平台对受众进行用户画像,辅助DSP平台精准投放广告,提高投放效率,从而为广告主节省成本。

0
酒仙网数字化运营及智能营销系统

酒仙网是中国领先的酒类电子商务综合服务公司,主要从事国际国内知名品牌、地方畅销品牌以及进口优秀品牌等酒类商品线上零售,经营范围包括白酒、葡萄酒、洋酒、保健酒、啤酒等

0
更新于: 浏览: 224