数据仓库平台

我要开发同款
数据分析张小凡2022年08月29日
110阅读

作品详情

项目名称:GenoDig数据仓库平台优化
时    间:2020年1月至2020年6月(项目周期6月)
项目概述:(项目人数5人)
该项目主要是实现对已有的基因数据提供相关分析挖掘的交互式平台。例如进行一些新的基因位点的特征研究,以及基因与表型GWAA分析(Genome-wide Association Analysis,基因组关联分析),使用已有数据构建基于深度学习的智能分型算法,基于基因关系和单倍群的分析等。本次优化主要是使用k8s替换emr,自动伸缩更灵活,不需要常驻节点。
业绩和成果:
云计算和大数据的结合, 比如我们目前实现的spark on k8s ,算是比较新的方案。把大数据的架构运行在云上容器里,比传统的服务器部署大数据平台要节省35%左右的成本。
工作职责:
1、spark on k8s技术调研  
主要技术:
1、 计算引擎spark
2、 底层k8s
3、 前端交互jupyter notebook
4、 存储hbase+hive
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论