近年来,卷积神经网络(CNN)在各种计算机视觉任务上实现了前所未有的进步。 但是,训练大型CNN是一项资源密集型任务,需要专门的图形处理单元(GPU)和高度优化的实现,才能从硬件获得最佳性能。 GPU内存是CNN训练过程的主要瓶颈,限制了输入和模型体系结构的大小。 在本文中,我们建议通过利用未充分利用的现代系统资源来缓解此内存瓶颈:该设备可托管带宽。 我们的方法称为CPU卸载,其工作原理是在计算时将隐藏的激活转移到CPU,以便在正向传递期间释放GPU内存用于上游层计算。 然后,根据需要通过向后传递的梯度计算将这些激活转移回GPU。 我们方法的主要挑战是有效地重叠数据传输和计算,以最大程度地减少