Apache Hudi Uber 大数据存储系统开源项目

我要开发同款
匿名用户2019年05月12日
105阅读
开发技术Java
所属分类大数据、数据存储
授权协议Apache

作品详情

Hudi是Uber在2016年以“Hoodie”为代号开发,旨在解决Uber大数据生态系统中需要插入更新及增量消费原语的摄取管道和ETL管道的低效问题。2019年1月,Uber向Apache孵化器提交了Hudi,从而进一步推进了Uber的开源承诺,保证ApacheHudi可以在Apache软件基金会的开放治理和指导下长期可持续性地增长。

Hudi是一个通用的大数据存储系统,主要特性:

快速,可插入索引的Upsert支持通过回滚支持以原子方式发布数据作者与查询之间的快照隔离数据恢复保存点使用统计信息管理文件大小,布局行和列数据的异步压缩时间轴元数据以跟踪lineage

Hudi目前管理着4000多个表,这些表在Uber上存储了几PB的数据,同时将ApacheHadoop仓库访问延迟从几个小时降低到30分钟以下,这证明了它的可伸缩性。Hudi还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论