Volcano是基于Kubernetes的批处理系统,源自于华为云AI容器。Volcano方便AI、大数据、基因、渲染等诸多行业通用计算框架接入,提供高性能任务调度引擎,高性能异构芯片管理,高性能任务运行管理等能力。
整体架构Volcano提供一整套目前K8S在批量和弹性工作负载处理中缺失的机制,包括:
机器学习/深度学习生物信息学/基因组学其他“大数据”应用这些类型的应用程序通常运行在Volcano集成的Tensorflow,Spark,PyTorch,MPI等通用域框架上。
Volcano为Kubernetes添加的机制和功能的一些例子:
作业管理的扩展和改进,如:Multi-pod作业生命周期管理扩展,包括挂起、恢复和重启提升错误处理作业的索引任务依赖调度扩展联合调度公平调度队列调度抢先和收回预订和回填基于拓扑逻辑的调度运行时扩展支持Singularity等专用容器运行时,具有GPU加速器扩展和增强的安全功能其他数据局部感知和智能调度优化数据吞吐量,往返延迟等Volcano建立在使用多个系统和平台大规模运行各种高性能工作负载的十五年经验之上,并结合了开源社区的最佳创意和实践。
评论