点击空白处退出提示
作品详情
描述:
KUS-CSEC 大数据项目是基于类似电商货物线上线下批发零售平台,日增数据有千万,为了给公司提供更好的决策支持,开发了中云速购大数据平台。主要数据来自于用户访问日志和业务数据(订单数据,分部数据,用户数据等等)。业务数据存储在 Mysql ,日志数据存在服务器,每天定时的抽取业务数据和日志数据到 HDFS ,后续供 Hive 进行数据处理 。
主要职责:
1. 项目初期参与离线数仓架构选型搭建和数仓分层设计
2. 主导使用 Sqoop从 MySQL 数据库将业务数据导入迁移到 HDFS 映射到 Hive 数仓 ODS层
3. 在 DWD 层进行相关的数据清洗转换和针对缓慢变化维的拉链表开发
4. 编写 HiveSQL 基于 MapReduce 分布式计算框架对离线数据按照主题进行相关的数据开发,星型模型实现,包括按照订单主题、货物主题、分部主题、用户主题形成事实表,以及根据需求计算相应的指标
5. 使用内存式统计工具 Presto 生成主题宽表,如订单主题域部分的用户留存率、同季度商品订购百分比、区域销售热力图等,将数据导入关系型数据库 MySQL中,方便接下来的数据可视化操作
6. 使用 FineBI 连接 MySQL 数据库,并对数据进行可视化操作,进行相关的大屏报表开发,方便更直观的对数据进行分析
7. 负责输出数据的校验和溯源调整,以及使用 Oozie 调度工具进行调度,保证项目的稳定工作
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论