DATAWHALE 动手学深度学习PyTorch 笔记记录2 attention mask

baidu_73924 11 0 PDF 2021-01-10 11:01:07

【Attention中mask pad的weight的做法】在attention中,对attention score进行softmax时,需要考虑到query与pad计算得到的score应该忽略。我们在处理时可以先正常地用高维tensor形式将所有score计算出来,然后根据key的句长将pad所在位置的weight进行mask掉。下面的代码实现了给定二维tensor X,根据X_len将X中指定位置替换为value值。 def SequenceMask(X, X_len,value=-1e6): maxlen = X.size(1) mask = torch.arange

用户评论

暂无评论

14天动手挑战深度学习Pytorch–task345笔记

一、过拟合以及欠拟合提出以及解决方案 1.欠拟合以及过拟合的概念一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting); 另一类是模型的训练误差远小于它在测试数据集上

5 2021-01-16
使用MXNetGluon来动手学深度学习

使用MXNetGluon来动手学深度学习。。。。。。。。。。。。。。。

17 2019-05-13
动手学深度学习Task5

卷积神经网络基础本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层,常用于处理图像数据。二维互相关运

7 2021-01-16
动手学深度学习Task05

Task05 1.卷积神经网络基础用一个边缘检测的例子来说明卷积过程: 给定的filter在输入图像上进行平移,每移动到一个位置上就把filter和input重合位置上的两个像素值相乘,再把该位置上

15 2021-01-10
机器翻译动手学深度学习

机器翻译导入模块: import sys sys.path.append('/home/kesci/input/d2l9528/') import collections import d2l im

24 2021-01-09
动手学深度学习六凸优化

优化与深度学习优化与估计尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。优化方法目标:训练集损失函数值深度学习目标:测试集损失函数值(泛化性)

12 2021-01-16
动手学深度学习Task03

Task03 1.过拟合欠拟合及其解决方案训练误差(training error):模型在训练数据集上表现出的误差。泛化误差(generalization error):模型在任意一个测试数据样本

16 2021-01-16
动手学深度学习中文版

《动手学深度学习》面向中文读者的能运行、可讨论的深度学习教科书

20 2019-09-27
动手学深度学习20190521.rar

李沐的《动手学深度学习》,2019-05-21高清中文pdf版,排版好,有书签,深度学习很好的参考资料,仅供学习用。

11 2021-04-14
动手学深度学习Task4

机器翻译及相关技术;注意力机制与Seq2Seq模型;Transformer 1.机器翻译及相关技术 2.注意力机制与Seq2Seq模型 3.Transformer 一机器翻译及相关技术机器翻译(M

20 2021-01-31

DATAWHALE 动手学深度学习PyTorch 笔记记录2 attention mask

用户评论

推荐下载