相关技术:Spring Boot+Flink+Flink CDC+HUDI+MySQL+HDFS
项目描述:基于新一代数据湖框架HUDI,来设计和实现一个大数据平台,解决传统数仓数据处理慢,分析链路长等问题。并提
供Upsert功能,支持多种事务,并集成了OSS和HDFS支持多种异构数据的存储。
项目职责:
1. 参与需求的设计讨论工作、协助编写功能开发文档、完善开发方案。
2. 研究Hudi的相关特性,与Flink结合,将数据写成Hudi表格式,并存到hdfs中。
3. 使用Flink CDC技术结合binlog实时获取Mysql的变更流。
4. 预研元数据管理平台Atalas和DataHub,并集成到系统中。后端编写接口连接Hive,实现前端查询hudi表同步到Hive的数
据。