针对目前深度学习中的卷积神经网络(CNN)在CPU平台下训练速度慢、耗时长的问题,采用现场可编程门阵列(FPGA)硬件平台设计并实现了一种深度卷积神经网络系统。该系统采用修正线性单元(ReLU)作为特征输出的激活函数并使用Softmax函数作为输出分类器。利用流水线技术并针对每一层的特征运算进行了并行处理,从而能够在1个系统时钟周期内完成整个CNN中的295次卷积运算。系统最后采用MNIST数据集作为实验样本,实验结果表明,在50 MHz的工作频率下,FPGA的训练用时相较于通用CPU的训练用时提升了8.7倍,经过2 000次迭代后系统识别的准确率为92.42%。