上海新朋联众汽车零部件有限公司-离线数仓建设

我要开发同款
329阅读

作品详情

技术选型: hive on spark+hadoop2.7+sqoop1.4+oracle11g+mysql5.7+DolphinScheduler+Superset
项目描述:建设离线数仓,对业务数据进行整合,按照产品、客户、供应商、成本、员工、回访、运营等模块
按照各个维度进行分析。
ODS 层
数据内容:ERP、财务总账、 数字人力(人力资源管理系统) 、MES(车间管理系统) 、SRM(供应
商管理系统)、PLM(产品生命周期管理系统) 等系统同步采集
数据来源:使用 Sqoop 从 Oracle 中同步采集
存储设计:Hive 分区表,avro 文件格式存储,保留 3 个月,采用压缩比较高的 gzip
DWD 层
数据内容:存储所有业务数据的明细数据 (构建事实表)
数据来源:对 ODS 层的数据进行 ETL 解决一些数据质量问题和数据的完整度问题
存储设计:Hive 分区表,orc 文件格式存储,保留所有数据,采用 snappy 压缩
DWS 层
数据内容:存储所有事实与维度的基本关联、基本事实指标等数据构建客户主题、供应商主题、
产品主题、市场主题、运维主题、工单主题、不良品主题、回访主题、费用主题、派单主题
数据来源:对 DWD 层的数据进行清洗过滤、轻度聚合以后的数据
存储设计:按照统计周期进行分区,orc 文件格式存储,保留所有数据
ST 层
数据内容:存储所有报表分析的事实数据
数据来源:基于 DWB 和 DWS 层,通过对不同维度的统计聚合得到所有报表事实的指标
DM 层
数据内容:存储不同部门所需要的不同主题的数据
数据来源:对 DW 层的数据进行聚合统计按照不同部门划分
DIM 层
数据内容:存储所有业务的维度数据:日期、地区、用户、产品、机构、供应商信息等维度表
数据来源:对 DWD 的明细数据中抽取维度数据
存储设计:Hive 普通表,orc 文件 + Snappy 压缩+全量采集
个人职责:1.负责将存储在关系型数据库中的业务系统数据导入 hdfs 上。
2.根据原始数据表,批量创建 hive 表,设置分区、存储格式。
3.根据业务关联关系以及分析指标,建立数仓模型。
4.实现数据模型中的各个数仓分层的数据建模,建表。
5.负责实现每个分层的数据抽取、转换、加载。
6.负责编写 shell 实现 sqoop 脚本批量导入数据。
7.负责编排 sqoop 导入数据的任务调度。
8.负责使用 sparksql 进行数据应用层指标进行分析。
9.解决项目中 ThriftServer 资源不足 GC 问题、ThriftServer 单点故障、数据倾斜、数据采集不
一致等突发问题。
10.对集群中资源优化与代码开发优化。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论