EDL是一个弹性深度学习框架,其包含一个KubernetesController、PaddlePaddleauto-scaler(可以根据集群中的空闲硬件资源改变分布式任务进程的数目)以及一个新的容错计算架构。
该项目致力于解决深度学习任务弹性的在资源通常不足的生产环境集群执行,尽可能早的帮助深度学习开发者分析出潜在算法问题,同时,Fluid通过API与Kubernetes交互,以理解全局集群状态,并据此调整不同任务的进程数量。
EDL是一个弹性深度学习框架,其包含一个KubernetesController、PaddlePaddleauto-scaler(可以根据集群中的空闲硬件资源改变分布式任务进程的数目)以及一个新的容错计算架构。
该项目致力于解决深度学习任务弹性的在资源通常不足的生产环境集群执行,尽可能早的帮助深度学习开发者分析出潜在算法问题,同时,Fluid通过API与Kubernetes交互,以理解全局集群状态,并据此调整不同任务的进程数量。
评论