视频识别-C3D网络pre-trainmodelpart1 C3Dnetwork由5个三维卷积块(包含8个三维卷积层和5个三维最大池化层)、两个全连接层和一个分类层构成。 3DConvNets比2DConvNets更适用于时空特征的学习; 对于3DConvNet而言,在所有层使用3×3×3的小卷积核效果最好; 我们通过简单的线性分类器学到的特征名为C3D(Convolutional3D),在4个不同的基准上优于现有的方法,并在其他2个基准上与目前最好的方法相当。