ICCV2021 MIT-IBM沃森开源CrossViT:Transformer走向多分支、多尺度
论文链接:https://arxiv.org/abs/2103.14899
项目链接:https://github.com/IBM/CrossViT
01
02
2.1.Vision Transformer的概述
2.2.多尺度Vision Transformer
L-Branch :大分支利用粗粒度的patch大小(),这个分支有更多的Transformer编码器和更大的embedding维度。 S-Branch :小分支对细粒度的patch大小()进行操作,这个分支具有更少的编码器和更小的embedding维度。
2.3.多尺度特征融合
All-Attention Fusion
Class Token Fusion
Pairwise Fusion
Cross-Attention Fusion
2.4. CrossViT
03
3.1. Main Results
Comparisons with DeiT
Comparisons with SOTA Transformers
Comparisons with CNN-based Models
Transfer Learning
3.2. Ablation Studies
Comparison of Different Fusion Schemes
Effect of Patch Sizes
Channel Width and Depth in S-branch
Depth of Cross-Attention and Number of Multi-Scale Transformer Encoders
04
05
思考
CrossFormer
CrossViT
CrossFormer是一个多阶段结构,不同的阶段具有不同的分辨率(这一点和CNN很像,空间维度不断缩小,通道维度不断增加);而CrossViT与Transformer更相似,在所有的Block中都保持了相同的分辨率和通道维度。
CrossFormer的多尺度特征体现在每个Stage内,它的多尺度是由于CrossFormer中每个stage的CEL模块在进行patch embedding的时候进行了多尺度embedding造成的;CrossViT的多尺度特征体现在Transformer Block之前的patch embedding,它在patch embedding的时候生成了两个尺度的特征,然后CrossViT中每个Block在比较小的计算量下,进行了这两个尺度特征的信息交互。
CrossFormer的多尺度信息会更加丰富一些(第1个stage有4个尺度的特征信息;第2/3/4个stage都有2个尺度的特征信息);CrossViT在整个计算过程中存在2个尺度的视觉信息(即文中的S-Branch和L-Branch的尺度)
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV
END
欢迎加入「图像分类」交流群👇备注:IC
赞 (0)