该项目是***数据中台组集合了SaaS中台数据,以及emr实操系统基础数据搭建的离线数仓平台。为公司各个业务部门整合一份完整的,高一致性的干净的数据源提供方。为公司管理层,以及相关的产品部门提供有价值的报表以及决策所需相关数据。1、构建数仓基本模型分层(ODS、DWD、DWS、ADS)处理,使用Python进行脚本书写2、ODS层主要存放经由Sqoop导入Saas中台部MySQL业务数据以及实操系统业务数据3、DWD层完成了数据的清洗、脱敏、降维等操作4、按照雪花模型进行维度建模,设计每一层的表,并针对不同类型的表(实体表、维度表、事实表)设计同步策略5、通过自定以UDF、UDTF函数完成日志字段的解析6、基于Hive SQL结合报表业务数据制作流量分配看板,以营期、课程、社群为主题增加报表页面7、基于Metabase来查询数仓基础数据为财务提供订单明细、分摊收入、预收账款等明细数据8、后期业务数据冗余进行维度重新整合,模型重新提取后进行口径统一形成迭代之后的宽表9、整个过程通过使用Azkaban结合每阶段的Python脚本完成任务调度声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论