卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 [1-2] 。由于卷积神经网络能够进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)”1102019年4月4日第5章卷积神经网络性:局部连接,权重共享以及汇聚。这些特性使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性。和前馈神经网络相比,卷积神经网络的参数更少。卷积神经网络主要使用在图像和视频分析的各种任务上,比如图像分类、人脸识别、物体识别、图像分割等,其准确率一般也远远超出了其它的神经网络模型。近年来卷积神经网络也广泛地应用到自然语言处理、推荐系统等领域。5.1卷积卷积( Convolution),也叫摺积,是分析数学中一种重要的运算。在信号这里我们只考虑离散序列的处理或图像处理中,经常使用一维或二维卷积。情况。维卷积一维卷积经常用在信号处理中,用于计算信号的延迟累积。假设一个信号发生器每个时刻t产生一个信号xt,其信息的衰减率为k,即在k-1个时间步长后,信息为原来的k倍。假设1=1,2=1/2,3=1/4,那么在时刻t收到的信号yt为当前时刻产生的信息和以前时刻延迟信息的叠加,9t=1×xt+1/2+1/4×x(5.101×t+w2×xt-1+w3×xt-2(5.2)0k·Tt-k+1我们把v1,w2,……称为滤波器( Filter)或卷积核( Convolution Kernel)。假设滤波器长度为m,它和一个信号序列x1,x2,…的卷积为ytk·t-k+1,信号序列x和滤波器w的卷积定义为∞x,(5.5其中⑧表示卷积运算。一般情况下滤波器的长度m远小于信号序列长度m。当滤波器fk=1/m,1≤km,或(-j+1)<1,或(t-j+1)>m时,-2+1.-+1=0。即相当于对W进行了p=(M-m,N-m)的零填充。从公式(516)可以看出,f(Y)关于X的偏导数为W和0y2的宽卷积。公式(5.16)中的卷积是真正的卷积而不是互相关,为了一致性,我们用互相关的“卷积”,即0f(Y)rot180af(rOXaY)ow(5.17)rot180(W)o(5.18)其中rot180()表示旋转180度52卷积神经网络卷积神经网络一般由卷积层、汇聚层和全连接层构成。52.1用卷积来代替全连接在全连接前馈神经网络中,如果第l层有n个神经元,第l-1层有m(-1个神经元,连接边有n()×m(-1)个,也就是权重矩阵有7()×m(-1)个参数。当m和n都很大时,权重矩阵的参数非常多,训练的效率会非常低。如果采用卷积来代替全连接,第l层的净输入z()为第l-1层活性值a(-1)和滤波器w()∈Rm的卷积,即(5.19)其中滤波器w(为可学习的权重向量,b()∈Rn为可学习的偏置。根据卷积的定义,卷积层有两个很重要的性质:邱锡鹏:《神经网络与深度学习》https://nndl.github.io1162019年4月4日第5章卷积神经网络局部连接在卷积层(假设是第l层)中的每一个神经元都只和下一层(第l-1层)中某个局部窗口内的神经元相连,构成一个局部连接网络。如图5.5b所示,卷积层和下一层之间的连接数大大减少,有原来的n×n-1个连接变为n×m个连接,m为滤波器大小。权重共享从公式(5.19)可以看出,作为参数的滤波器w()对于第l层的所有的神经元都是相同的。如图5.5b中,所有的同颜色连接上的权重是相同的(a)全连接层(b)卷积层图55全连接层和卷积层对比由于局部连接和权重共享,卷积层的参数只有一个m维的权重w()和1维的偏置b①),共m+1个参数。参数个数和神经元的数量无关。此外,第L层的神经元个数不是任意选择的,而是满足n()=n(-1)-m+1。522卷积层卷积层的作用是提取一个局部区域的特征,不同的卷积核相当于不同的特征提取器。上一节中描述的卷积层的神经元和全连接网络一样都是一维结构。既然卷积网络主要应用在图像处理上,而图像为两维结构,因此为了更充分地利用图像的局部信息,通常将神经元组织为三维结构的神经层,其大小为高度M×宽度N×深度D,有D个M×N大小的特征映射构成。特征映射( Feature Map)为一幅图像(或其它特征映射)在经过卷积提取到的特征,每个特征映射可以作为一类抽取的图像特征。为了提高卷积网络的邱锡鹏:《神经网络与深度学习》https://nndl.github.io52卷积神经网络2019年4月4日117表示能力,可以在每一层使用多个不同的特征映射,以更好地表示图像的特征在输入层,特征映射就是图像本身。如果是灰度图像,就是有一个特征映射,深度D=1;如果是彩色图像,分别有RGB三个颜色通道的特征映射,输入层深度D=3。不失一般性,假设一个卷积层的结构如下:●输入特征映射组:Ⅹ∈RMxN×D为三维张量( tensor),其中每个切片(sice)矩阵X∈RMxN为一个输入特征映射,1≤d≤D;●输出特征映射组:Y∈ IRXN X为三维张量,其中每个切片矩阵YP∈RMxN为一个输出特征映射,1≤P≤P;卷积核:W∈RmXm×D×P为四维张量,其中每个切片矩阵WP,d∈Rm×n为一个两维卷积核,1