大数据开发

我要开发同款
proginn12440183902023年11月21日
137阅读

作品详情

- 主导构建离线数仓,汇集业务联机数据库和终端用户行为日志数据,实际数据过滤、治理、解析、集成、入库。
- 划分主题建设,为公司提供多种报表统计结果和业务系统技术支持。
- 提高数据处理性能,解决数据漂移延迟,实施数据脱敏和解析参数表的构建。
- 设计并维护多层次数仓结构,包括ODS、DIM、DWD、DWS和ADS层,优化数据仓库查询性能。

项目架构:Hadoop + Hdfs+Zookeeper + Mysql + Hive+clinkhouse+ElasticSearch +Azkaban+dataX+Spark+shull

项目流程:
数据采集:
- 使用dataX从业务库同步全量和增量数据。
- 使用flume搭建数据传输网络。
数据分层设计:
ODS层:存储未处理的源数据,保持一致性和追溯性。
DIM层:存储各种维度表,例如药品主数据、地区、生产单位、运力_站点等。
DWD层:清晰、规范化数据、采用维度建模理论。
DWS层:按主题轻度聚合数据,例如单位物资日聚合表,仓库自然月集合表,省市区储备表等。
ADS层:存放重要指标的结果数据,提供数据产品和服务。
报表开发:
- 开发日常的业务相关的报表、包括运转主题下的日销售量、月销售量、销售区域、销售企业。
- 创造性的解决存储空间大,字段变更缓慢的表的问题,引入拉链表模型,维护历史状态并优化报表性能。
- 协助业务部门定义关键业务指标和度量标准、确保报表的准确性和可信度。
- 根据用户反馈不断改进报表和仪表板设计,以提高用户体验和数据可视化效果。
数据治理系统:
- 解决源数据信息不规范问题,实现源数据与标准数据产生映射关系。将数据存入Hdfs中。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论