为武汉祈祷。 问题一 ps server 不会主动停止,无论在什么情况下。这个问题从2016年提出,到现在,也没有一个简洁干净的解决方式,而这个问题会很严重,如果你使用的是租用资源,会白白花费很多钱钱。 我注意到,ps server不论是使用gpu还是cpu资源都不会主动停止,即使worker已经训练完停止了,甚至是遇到错误,ps server仍旧会运行。 这就会导致这个进程对节点资源的持续占有,即使没有使用GPU资源。 这种情况是按照全部使用计费的!!!我的客服工程师在初期错误程序出现这一情况后,没有告诉我ps不停止,并且他是知道会计费的,导致我的第一个成功的分布式程序空跑数小时,心疼我们租