datax二次开发

我要开发同款
郑文强2024年04月02日
52阅读
开发技术java
授权协议Mozilla许可

作品详情

离线数据采集:支持离线采集MySQL、ORACLE、DB2、SQL Server、瀚高、TiDB、Doris、ClickHouse、PostgreSQL等关系型数据库,http、Kafka、Excel、InfluxDB、Redis、MongoDB、SQL、FTP、Elasticsearch、HBase、Hive等组件的数据到ods层或其他数仓数据源。
实时数据采集:支持Flink实时采集MySQL-binlog、PostgreSQL-WAL、PolarDB- binlog,Oracle,kafka,ActiveMqd等组件的数据。
数据治理:从数据的规范性、一致性、准确性、完整性、唯一性等角度进行数据处理,形成标准统一的数据资产
治理组件如下:
1.规范性校验-对各个字段的值域、长度、最大值、最小值进行限制
2.顺序校验-对字段值进行排序
3.数据量统计-对字段值进行预警统计
4.级联校验-对多个字段值进行联合校验,如省市区三个字段值校验
5.空值替换-对字段空值进行处理
6.日期格式转换-对日期字段进行格式转换
7.身份证标准化-对身份证进行标准化处理
8.电话号码标准化-对电话号码进行标准化处理
9.正则提取-是用正则处理字段值
10.字符串转换-对字符串进行处理
11.特殊字符清洗-对空换行等特殊字符处理
12.自定义映射-对字典值进行映射,如0-男,1-女
13.列增加-新增列
14.数据去重-去除重复数据
15.groovy脚本-支持脚本对字段值进行处理
16.加密、解密、脱敏-安全组件
17.过滤-对字段值进行过滤
数据资产:展示数据表名称、所属数据源、资产名称、敏感数、数据量等内容,同时提供数据表统计详情、元数据变更详情、元数据管理、血缘分析以及差异分析操作功能
数据共享:数据共享模块可将数据资产中的数据发布为数据服务,开放给其他业务系统使用。
物联感知平台:物联网平台实现针对城市内物联感知设备的管理。实现各类设备的基本管理、数据接入、告警处理,实时动态等全要素整合共享,实现对城市内智慧设备的管理,并配合智慧设备的调度管理和告警通知,使设备的实时变化更易感知。
数据地图:大屏展示数仓分层中的数据
项目中使用的技术:springboot、Spring Cloud Alibaba、k8s、hive
个人承担角色:
数据采集:ActiveMq输入,ActiveMq输出,redis输出,http输入组件支持xml、市场项目问题修复
数据治理:正则提取组件开发、规则库组件开发、groovy脚本组件优化、治理逻辑封装成治理模型并适配23种治理组件、市场项目问题修复
数据探查:对前置库表字段进行值域分布、空值率、字段类型做探查,对dw层治理后的数据做质量校验,并输出治理报告
一站式数据治理:基于DAG图完成数据采集、数据探查、数据治理、数据核验等操作
政务类数仓层次设计:原始库、治理库、基础库、主题库、专题库、hive、mpp、mysql
数据资产:资产目录、元数据管理
数据共享:黑白名单,限流、共享灵活性
数据标准:完成数据标准在数据治理中的落地
数据云图:指标数值优化
系统集成:大数据系统与上层服务做单点集成,oauth,cas
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论