ViViT:视频视觉变压器 非官方实现。 笔记: 这是在制品中。 实现了模型2,没有实现模型3和模型4。 用法: img = torch . ones ([ 1 , 16 , 3 , 224 , 224 ]) model = ViViT ( 224 , 16 , 100 , 16 ) parameters = filter ( lambda p : p . requires_grad , model . parameters ()) parameters = sum ([ np . prod ( p . size ()) for p in parameters ]) / 1_000_000 print ( 'Trainable Parameters: %.3fM' % parameters ) out = model ( img ) print ( "Shape of out :"