image
hospitable_26882

这家伙很懒,什么也没写

Ta上传的资源(0)个

Predicting Training Time Without Training

我们解决了预测预训练的深度网络收敛到损失函数给定值所需的优化步骤数的问题。为此,我们利用了以下事实:在微调过程中,深层网络的训练动力学可以很好地被线性模型的训练动力学近似。.. 这使我们能够通过求解函数空间中的低维随机微分方程(SDE)来估计训练过程中任意点的训练损失和准确性。使用此结果,我们可以预

论文/代码 20 0 .pdf 2021-01-24 08:01:49