介绍了一种基于2D ConvNet引入的新的双流3D ConvNet(I3D):将非常深层图像分类的过滤器和合并内核扩展到3D,从而可以从视频中学习无缝的时空特征提取器同时利用成功的ImageNet架构设计甚至其参数。我们显示,在进行动力学预训练后,I3D模型在最新的动作分类上有了很大的改进。