双壁合一 卷积神经网络(CNNS) Fundamentals of Convolutional Neural Networks LeNet && ModernCNN CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 循环神经网络(RNNS) Fundamentals of Recurrent Neural Network ModernRNN RNNs 适合捕捉长距离变长序列的依赖,但是自身的recurrent特性却难以实现并行化处理序列。 整合CNN和RNN的优势,Vaswani et al., 2017 创新性地使用注意力机制设计了 Transformer 模型。 该模型利用 at