Kubernetes(K8s)是一个开源的容器化应用管理工具,通过使用阿里的AiACC或者社区的horovod等分布式训练框架,可以将单机训练任务扩展为支持分布式的任务。Kubeflow社区的tf-operator支持Tensorflow PS模式,mpi-operator支持horovod的mpi allreduce模式,给深度学习训练带来更大的计算能力和灵活性。