门控循环神经网络 RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经网络:捕捉时间序列中时间步距离较大的依赖关系 GRU #参数初始化 num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size print('will use', device) def get_params(): def _one(shape): ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=tor