上海新朋联众汽车零部件有限公司-离线数仓建设

技术选型： hive on spark+hadoop2.7+sqoop1.4+oracle11g+mysql5.7+DolphinScheduler+Superset项目描述：建设离线数仓，对业务数据进行整合，按照产品、客户、供应商、成本、员工、回访、运营等模块按照各个维度进行分析。ODS 层数据内容：ERP、财务总账、数字人力(人力资源管理系统) 、MES(车间管理系统) 、SRM(供应商管理系统)、PLM(产品生命周期管理系统) 等系统同步采集数据来源：使用 Sqoop 从 Oracle 中同步采集存储设计：Hive 分区表，avro 文件格式存储，保留 3 个月，采用压缩比较高的 gzipDWD 层数据内容：存储所有业务数据的明细数据 (构建事实表)数据来源：对 ODS 层的数据进行 ETL 解决一些数据质量问题和数据的完整度问题存储设计：Hive 分区表，orc 文件格式存储，保留所有数据，采用 snappy 压缩DWS 层数据内容：存储所有事实与维度的基本关联、基本事实指标等数据构建客户主题、供应商主题、产品主题、市场主题、运维主题、工单主题、不良品主题、回访主题、费用主题、派单主题数据来源：对 DWD 层的数据进行清洗过滤、轻度聚合以后的数据存储设计：按照统计周期进行分区，orc 文件格式存储，保留所有数据ST 层数据内容：存储所有报表分析的事实数据数据来源：基于 DWB 和 DWS 层，通过对不同维度的统计聚合得到所有报表事实的指标DM 层数据内容：存储不同部门所需要的不同主题的数据数据来源：对 DW 层的数据进行聚合统计按照不同部门划分DIM 层数据内容：存储所有业务的维度数据：日期、地区、用户、产品、机构、供应商信息等维度表数据来源：对 DWD 的明细数据中抽取维度数据存储设计：Hive 普通表，orc 文件 + Snappy 压缩+全量采集个人职责：1.负责将存储在关系型数据库中的业务系统数据导入 hdfs 上。2.根据原始数据表，批量创建 hive 表，设置分区、存储格式。3.根据业务关联关系以及分析指标，建立数仓模型。4.实现数据模型中的各个数仓分层的数据建模，建表。5.负责实现每个分层的数据抽取、转换、加载。6.负责编写 shell 实现 sqoop 脚本批量导入数据。7.负责编排 sqoop 导入数据的任务调度。8.负责使用 sparksql 进行数据应用层指标进行分析。 9.解决项目中 ThriftServer 资源不足 GC 问题、ThriftServer 单点故障、数据倾斜、数据采集不一致等突发问题。10.对集群中资源优化与代码开发优化。

上海新朋联众汽车零部件有限公司-离线数仓建设

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐