这是一个在UCF101上使用3D RNN/CNN+RNN 进行视频分类的教程,基于Pytorch实现。 数据集 UCF101 含有包括13320个视频与101个动作,视频有不同的视觉长度,视频画面大小也不一样,最小的视频只有29帧。为了减少视频预处理工作,我们之间使用feichtenhofer预处理结束的数据。 https://github.com/feichtenhofer/twostreamfusion 模型 3D CNN 使用一些3D核和通道数N,来解决视频输入,视频可以看成是3D 的图片,并使用了批归一化与dropout。 CNN+RNN (CRNN) CRNN 使用了CNN作为