数据中台

我要开发同款
wangruiming2024年06月15日
57阅读
开发技术springcloud、elasticsearch、hadoop、kafka、java
所属分类数据中台、大数据、微服务框架

作品详情

数据中台是面上PB级数据的一站式数据集成、治理、共享、分析及可视化平台。涵盖数据管理、
数据集成
项目经历、数据质量管理、元数据管理、数据仓库、数据标准管理、数据服务、图引擎及数据可视化等模块。
负责模块:
1. 数据管理: 设计、编码各个数据源的元数据信息及样例展示,为半结构化数据源(如HBase,
Hdfs,Mongo
db,kafka)等数据源设计并开发schema相关模块。
2. 数据集成: 实现组件化、交互式数据处理模块:
基于flink自定义开发soure及sink,实现多元异构的数据处理架构,并支持数据样例及运行数量回
传及脏数
据处理。
使用flink支持批流一体数据处理,并支持kappa实时数仓架构,支持HBase等数据库作为维表点查
提升实
时数据join效率。
支持数据库日志-kafkaUpeset-hudi湖仓一体架构。
提供sql组件(包含sql校验及解析)、restful组件、加/解密、脱敏及分支等多种数据处理组件。
支持任务运行日志通过logback kafka append流入elasticsearch,并进行日志分析。
支持flink udf 与系统上注册及测试并支持其于sql组件中使用
3. 数据质量管理: 实现规则配置化,任务调度化的数据质量管理平台:
提供非空率、格式合规率、値域合规率、数据唯一率、关联数据唯一率、及时率等指标的数据质量检
查,
同样基于数据集成模块的多元异构数据处理架构,支持多种数据源进行数据质检。
记录数据历史质检记录并生成质检报告。
4. 元数据管理: 提供元数据记录、版本变更记录、元数据手动/自动采集、数据血缘等数据治理辅助
功能:
开发元数据采集、变更历史记录等功能。
基于数据集成模块开发数据血缘记录及展示功能,通过sql解析及任务解析自动解析出系统中的表
级、字段
级数据血缘,并使用分布式知识图谱数据库进行数据血缘的存储与使用。
5. 图引擎: 基于janusgraph分布式知识图谱,提供支持万亿级别节点及关系的海量知识图谱的可视
化建模、配置
化数据入图及知识图谱可视化工具:
知识图谱的可视化建模。
知识图谱入图模块。
使用技术:Flink/HDFS/HBase/Elasticsearch/Openlookeng/HIVE/Prometheus/Janusgraph等
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论