基于FPGA加速的卷积神经网络识别系统
针对卷积神经网络(CNN)在通用CPU以及GPU平台上推断速度慢、功耗大的问题,采用FPGA平台设计了并行化的卷积神经网络推断系统。通过运算资源重用、并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器,大大提高运算速度,减少资源的使用。系统测试使用ORL人脸数据库,实验结果表明,在100 MHz工作频率下,模型推断性能分别是CPU的10.24倍,是GPU的3.08倍,是基准版本的1.56倍,而功率还不到2 W。最终在模型压缩了4倍的情况下,系统识别准确率为95%。