帅的不明显123Java-程序员客栈

1月前来过

大数据开发

武汉

全职 · 300/日 · 6525/月信用正常

工作时间: 工作日21:00-23:00、周末08:00-22:00工作地点: 远程

服务企业: 1家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

五年开发经验，2年java后端，3年大数据

l 大数据技能：

Ø 熟练掌握hadoop架构组成，集群搭建，调优，数据压缩，源码编译

Ø 熟练掌握hdfs架构组成，元数据管理流程，读写流程，api操作，常用命令

Ø 熟练掌握mapreduce作业提交全流程，内核源码，shuffle原理，shuffle调优

Ø 熟练掌握yarn基本架构，核心组件，调度策略

Ø 熟练掌握hive安装部署，架构组成，数据类型，表类型，hql语句，行列转换，窗口函数，日期函数，rank函数，自定义udf、udaf、udtf，hive调优，动态分区，熟悉kettle

Ø 熟悉presto使用，优化,了解kylin、impala、druid

Ø 熟练掌握hbase安装部署，架构组成，数据结构，读写流程，rowkey设计，shell和java api操作，了解phoenix安装和使用

Ø 熟练掌握elasticsearch、kibana 和java api的使用

Ø 熟练掌握scala函数式编程、面向对象、集合操作

Ø 熟练掌握spark架构组成，部署模式，基于yarn-cluster的任务提交全流程，stage级别调度，task级别调度，shullfe原理，内存管理，性能调优, troubleshooting

Ø 熟练掌握spark core rdd编程，transformation和action算子，rdd特点，函数传递，依赖关系，DAG的划分，缓存，checkpoint，数据读取与保存，累加器，广播变量

Ø 熟练掌握spark sql、DataFrame、DataSet编程

Ø 熟练掌握spark streaming编程，Dstream无状态和有状态转换，窗口函数，transform,掌握与kafka的direct方式，消息顺序消费，保证exactly once语义，熟悉与kafka对接限流与反压机制

Ø 了解python，会使用pyspider爬虫框架进行数据爬取

Ø 熟练掌握linux命令，会编写shell脚本，熟悉 awk、sed、cut、sort

Ø 熟练掌握zookeeper集群部署、选举机制、监听原理、节点类型、应用场景、以及常用命令

Ø 熟练掌握kafka集群部署，整体架构、消息生产、保存、消费原理，分区策略，顺序消费，命令行操作，高级和低级API的使用,理解ack消息语义

Ø 熟练掌握flume部署，架构组成，事务机制，参数调优

Ø 熟练掌握sqoop安装，使用，工作原理，常用命令

Ø 熟练掌握Azkaban安装部署，架构组成和job工作流创建，熟悉Oozie

Ø 熟悉CDH版本大数据集群安装，集群监控、熟悉Ambari+HDP

l JavaEE技能：

Ø 熟练掌握Java初级知识以及高级知识，集合、IO、多线程、线程池、锁，常用设计模式，JVM内存结构以及GC原理，常用数据结构和排序算法

Ø 熟练使用SpringMVC、Spring、Mybatis 进行开发，熟悉SpringMVC的工作流程，熟悉Spring的IOC和AOP特性

Ø 熟练使用Mysql、Redis

Ø 熟练使用Eclipse、IDEA、Maven进行开发，熟练使用Git、SVN代码管理工具

Ø 熟悉html、div、css、Js、JQuery等前端技能

2017-04-09 -至今北京百分点信息科技有限公司大数据开发
一：负责部分用户行为hive数仓搭建和指标分析 1）ODS层：创建启动日志表和事件日志表，编写shell脚本按照指定日期从hdfs加载日志数据到启动日志表和事件日志表的对应分区中（原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理） 2） DWD层： a 创建启动日志表，通过get_json_object函数解析日志，导入数据到对应的日期分区中 b 创建基础明细表，自定义udf解析解析公共字段，自定义udtf解析事件数组，配合lateral view侧视图函数，把单行数据拆解成多行的数据结果集。 c 从基础明细表中根据事件类型解析数据到具体的事件表：商品点击、详情、列表、广告、消息通知、用户前台活跃、用户后台活跃、评论、收藏、点赞、错误日志等。对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据，行式存储改为列存储，改压缩格式） 3）DWS层（明细表）：统计日活、周活、月活、每日新增、1天2天3天n天用户留存等明细数据 4）ADS层（指标分析）：根据DWS层明细表按照不同维度做聚合统计，分析出具体的日活、周活、月活数，添加是否是周末、是否