现在,Docker技术正如狂风暴雨般改变着我们的基础设施架构。在腾讯,我们构建了大规模的容器云平台,其上运行了不同的应用,如广告推荐,消息推送等。其中也包括了像机器学习模型训练这类任务,这类任务包含很多的子任务(可能数百甚至上千个),当部署这种包含很多容器的任务时,会同时从DockerRegistry拉取(Pull)镜像,这种高并发的拉取操作,很容易耗尽DockerRegistry的网络资源,这时,DockerRegistry的网络出带宽就成了整个部署任务的瓶颈。一旦DockerRegistry变的不可用,整个容器平台的可用性也随之降低,甚至导致级联失效(Cascadin