方差减少的副本交换SGHMC 尽管在近凸问题中减小梯度方差具有优势,但理论与实践之间的自然差异是在非凸问题中是否应避免梯度噪声。 为了填补这一空白,我们仅关注于噪声能量估计量的方差减小以利用理论加速度,而不再考虑噪声梯度的方差减小,因此具有动量的随机梯度下降(M-SGD)的经验经验可以自然地进口。 要求 Python 2.7 或类似 麻木 CUDA 分类:批次大小为256的CIFAR100上的ResNet20 动量随机梯度下降(M-SGD),具有500个时期,批量为256个,学习率不断降低 $ python bayes_cnn . py - sn 500 - chains 1 - lr 2e-6 - LRanneal 0.984 - T 1e-300 - burn 0.6 随机梯度哈密顿量蒙特卡洛(SGHMC),在预热期间具有退火温度,之后具有固定温度 $ python baye