ViT pytorch:视觉变压器的Pytorch重新实现(图像值得16x16字 源码
视觉变压器 Pytorch重新实现了针对随论文 ,Alexey Dosovitskiy,Lucas Beyer,Alexander Kolesnikov,Dirk Weissenborn,翟小华,Thomas Unterthiner,Mostafa Dehghani一起发布, Matthias Minderer,Georg Heigold,Sylvain Gelly,Jakob Uszkoreit和Neil Houlsby。 本文表明,将Transformers直接应用于图像补丁并在大型数据集上进行预训练,在图像识别任务上确实能很好地工作。 Vision Transformer使用标准的Transformer编码器和固定大小的补丁程序,可以实现图像识别任务中的最新技术。为了执行分类,作者使用了在序列中添加一个额外的可学习的“分类令牌”的标准方法。 用法 1.下载经过预先训练的模型(
文件列表
ViT-pytorch-main.zip
(预估有个15文件)
ViT-pytorch-main
models
configs.py
3KB
modeling_resnet.py
6KB
modeling.py
14KB
img
figure1.png
127KB
figure3.png
430KB
figure2.png
137KB
visualize_attention_map.ipynb
6.95MB
暂无评论