视觉变压器-火炬 实现,这是在Pytorch中仅使用一个变压器编码器即可在视觉分类中实现SOTA的一种简单方法。 视频中进一步解释了。 此处实际上没有多少代码,但也可以为所有人进行布局,因此我们可以加快注意力的革命。 有关使用预训练模型的Pytorch实施,请查看Ross Wightman的存储库。 官方的Jax存储库在。 安装 $ pip install vit-pytorch 用法 import torch from vit_pytorch import ViT v = ViT ( image_size = 256 , patch_size = 32 , num_classes = 1000 , dim = 1024 , depth = 6 , heads = 16 , mlp_dim = 2048 , dropout