数据中台是面上PB级数据的一站式数据集成、治理、共享、分析及可视化平台。涵盖数据管理、数据集成项目经历、数据质量管理、元数据管理、数据仓库、数据标准管理、数据服务、图引擎及数据可视化等模块。负责模块:1. 数据管理: 设计、编码各个数据源的元数据信息及样例展示,为半结构化数据源(如HBase,Hdfs,Mongodb,kafka)等数据源设计并开发schema相关模块。2. 数据集成: 实现组件化、交互式数据处理模块:基于flink自定义开发soure及sink,实现多元异构的数据处理架构,并支持数据样例及运行数量回传及脏数据处理。使用flink支持批流一体数据处理,并支持kappa实时数仓架构,支持HBase等数据库作为维表点查提升实时数据join效率。支持数据库日志-kafkaUpeset-hudi湖仓一体架构。提供sql组件(包含sql校验及解析)、restful组件、加/解密、脱敏及分支等多种数据处理组件。支持任务运行日志通过logback kafka append流入elasticsearch,并进行日志分析。支持flink udf 与系统上注册及测试并支持其于sql组件中使用3. 数据质量管理: 实现规则配置化,任务调度化的数据质量管理平台:提供非空率、格式合规率、値域合规率、数据唯一率、关联数据唯一率、及时率等指标的数据质量检查,同样基于数据集成模块的多元异构数据处理架构,支持多种数据源进行数据质检。记录数据历史质检记录并生成质检报告。4. 元数据管理: 提供元数据记录、版本变更记录、元数据手动/自动采集、数据血缘等数据治理辅助功能:开发元数据采集、变更历史记录等功能。基于数据集成模块开发数据血缘记录及展示功能,通过sql解析及任务解析自动解析出系统中的表级、字段级数据血缘,并使用分布式知识图谱数据库进行数据血缘的存储与使用。5. 图引擎: 基于janusgraph分布式知识图谱,提供支持万亿级别节点及关系的海量知识图谱的可视化建模、配置化数据入图及知识图谱可视化工具:知识图谱的可视化建模。知识图谱入图模块。使用技术:Flink/HDFS/HBase/Elasticsearch/Openlookeng/HIVE/Prometheus/Janusgraph等声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论