大数据治理平台

我要开发同款
Set012022年08月29日
274阅读

作品详情

数据治理基于作业调度与数据处理为一体,分布式调度系统的开发,可以为数据治理提供独立,全面 的任务编排,调度管理,执行管理,监控等功能,为数据治理提供强大的作业调度、作业执行的底层支持。用 于对Oracle、MySQL、SQL Server、GBase、TiDB、Hive、Kafka、GaussDB等多源异构数据的抽取、清洗、整合 以及转换。通过强大的ETL组件管理,算法包管理,实现跨平台数据资源的多源汇聚、快速清洗和数据治理。
负责调度信息的存储、创建、以及修改。包括作业调度周期、并行度、超时时间、作业调度时间等信息的 下发、作业开始、作业停止,并将调度信息缓存到Redis中间件中。 2. 负责数据监控服务,pull 拉取kafka订阅数据信息(包括正确数据量、问题数据量)日志信息,对kafka 消息进行过滤,避免重复消费、数据丢失等问题。最后将消息保存到MySQL中,并组装作业监控数据。错误数据 记录以及错误信息保存到tidb中。 3. 使用任务调度框架quartz保证kafka拉取线程断线重启。 4. 使用flink负责ETL组件开发,数据源组件(kafka输入、json文件读取、mysql读取、Excel文件读取)、 中间清洗节点(数据拆分、数据格转、数据流合并、过滤)、存储节点(kafka 写入、json文件写入)、mysql 存储)等组件的开发并打包上传HDFS分布式文件服务器。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论