数据中台

我要开发同款
小明嘛2022年06月26日
165阅读

作品详情

开发环境:InteliJ IDEA_2020.1 + Maven + Jdk1.8.0_181
技术架构:SpringBoot+MyBatisplus+springcloud+Vue+redis+kettle+activemq+rabbitmq+pgsql+k8s等
项目描述:​将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据,本项目基于kettle开源框架源码进行开发支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括 传统数据库 、文件、大数据平台、接口、 流数据 等数据源;支持 ETL 数据管道加入机器学习算法。
通过转换配置加载(Load)至 数据湖 (Data Lake),然后需要对在大数据存储里(例如: Hadoop ,S3, MongoDB )的数据各类加工,包括清洗(Cleanse)、把来自不同来源、不同格式的数据混合(Blend)、转换(Transform),再把数据按照分析需求进行建模(Modeling)和聚合(Aggregation),或者在 数据挖掘 之前进行数据预备和特征工程(Data Preparation & Feature Engineering),最终数据被加载至数据仓库或数据集市中。
技术知识:支持集群,支持多数据源,支持分布式事务等
主要负责:
1.kettle源码组件扩展
2.任务周期性调度
3.全文检索功能
4.数据仓库的创建
5.kettle集群搭建
6.百万级数据转换测试
7.基kettle源码分布式搭建
8.数据标准的开发
9.数据采集的开发
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论