离线数仓

我要开发同款
proginn21240113092023年05月16日
218阅读
所属分类hdfs、shell、hive、离线数仓

作品详情

项目描述:
对数仓进行升级,将之前的部分数据处理是基于Sparksql开发的转化为HQL,对部分的数据源进行调整和数据处理的调整;不需要的业务的清除和新增业务的添加;基于之前的数据运行分析数据,提升数仓整体的运行性能。

项目职责:
1.理解原有spark代码业务,转化为HQL实现。
2.自定义的UDF和UDTF函数,对新的数据源进行处理转化,已经不需要的数据进行过滤处理。
3.已经完成交割确认的数据从交易汇总表剥离出来,建立新表,减小后期查询的数据量。
4.需要join多张大数据表的耗时流程进行优化,建立中间表或者根据业务拆表,尽量去避免后期多大表之间的join。
5.建立二级分区,一些数据处理按照ppi分区外,还可以按业务类型进行分区,对比之前的每次数据都按照全部业务类型跑数效率很大提升。
6.uat版本的HQL和生产版本的HQL区分,生产版本的不应该有注释,hive解析也需要时间(规范化)
7.后期新增的业务需要开发
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论