离线数仓系统搭建

我要开发同款
星辰1232024年01月14日
158阅读
开发技术服务器运维、hdfs、hadoop、shell
所属分类ETL工具框架

作品详情

:该系统是将业务数据库所有数据集中到hadoo大数据平台,进行分层、建模,通过不同维度的指标,全面分析总体运营情况,并依据市场变化做出正确对策,同时对产品进行改进和优化等。
项目架构:Sqoop + hadoop + Hive +impala+ crontab+kylingence+tableau+fineBI
技术要点:
1.通过shell开发出批量生产能自动适配 mysql、oracle、sqlserve等关系型数据库sqoop采集指令和impala建表语句的功能;
2.对Sqoop采集功能配置文件研究,使采集,解决MySQL和Hive的空值、null,转义字符,及数据类型不一致等问题。
3.使用impala,parquet格式进行压缩和列式存储,提供快速sql查询和开发
4.利用kylingence工具对sql进行建模,能加速页面的响应,让可视化工具更快展示。
5.数据仓库的搭建:
(1)ODS原始数据层:将业务库数据增量或全量采集到ODS层,保证业务库和ods表1:1完全一致
(2)DWD明细数据层:对ODS层数据进行数据清洗和脱敏(有需要可创建非脱敏层)。进行维度建模,选择最小粒度对关心的业务进行分析,以便后续进行更大粒度的计算。构建维度和事实表时进行表维度,构建星型模型。DWD层采用Parquet列式存储。
(3)DWS数据服务层:对DWD的数据进行轻度聚合,粒度为每天或者区域,分别对关心的主题进行数据分析聚合成中间公共层,提供给ads主题层使用。
(4)ADS应用数据层:以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建主题对象的全量宽表。基于DWS层的主题构建全量主题宽表,主要关心各个主题的累计值。
(5).使用Sqoop将ADS层统计的指标导入到MySQL数据库中。同时将ads主题表通过可视化工具tableau展示出来,提供给业务分析
职责描述:
1.参与技术选型,需求分析以及具体方案设计讨论。
2.ods表的采集,ads层提取至tableau或者fineBI工具,其中固化的hivesql建成kylingence模型加速页面响应。
3.维护离线数仓系统的正常使用,解决大数据平台多种问题。同时也维护可视化工具tableau、finebi应用的日常运维
4.tableau和fineBI可视化工具的部署和答疑用户可视化工具的功能使用问题等。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论