文章目录概相关工作主要内容代码 Accelerating Deep Learning by Focusing on the Biggest Losers 概 思想很简单, 在训练网络的时候, 每个样本都会产生一个损失L(f(xi),yi)\mathcal{L}(f(x_i),y_i)L(f(xi​),yi​), 训练的模式往往是批训练, 将一个批次∑iL(f(xi),yi)\sum_i \mathcal{L}(f(x_i),y_i)∑i​L(f(xi​),yi​)所产生的损失的梯度都传回去, 然后更新参数. 本文认为, 有些样本(xi,yi)(x_i,y_i)(xi​,yi​)由于重复度高