机器学习实践 建筑 宽->窄->宽 楷模 类RNN 停止传播隐藏层 hidden = repackage_hidden ( hidden ) 每批之后 避免梯度爆炸 loss . backward () nn . utils . clip_grad_norm_ ( model . parameters (), max_norm = 2.0 , norm_type = 2 ) optimizer . step ()