NeurIPS2021 HRFormer:HRNet又出续作啦!国科大&北大&MSRA提出高分辨率Transformer,开源!
论文链接:https://arxiv.org/abs/2110.09408
项目链接:https://github.com/HRNet/HRFormer
01
02
2.1. Multi-resolution parallel transformer
2.2. Local-window self-attention
2.3. FFN with depth-wise convolution
2.4. Representation head designs
在ImageNet分类中,作者将四分辨率特征映射送到bottleneck中,输出通道分别更改为128,256,512和1024。然后,作者用卷积对它们进行融合,并输出2048个通道的最低分辨率特征图。最后,用一个全局平均池化操作,然后是最终的分类器。 在姿势估计中,作者只在最高分辨率的特征图上应用回归头。 在语义分割中,作者将语义分割头应用于concat之后的特征表示(首先将所有低分辨率表示向上采样到最高分辨率,然后将它们concat在一起)。
2.6. Instantiation
2.7. Analysis
03
3.1 Human Pose Estimation
3.2 Semantic Segmentation
3.3 ImageNet Classification
3.4 Ablation Experiments
Influence of 3×3depth-wise convolution within FFN
Influence of shifted window scheme & 3×3 depth-wise convolution within FFN based on Swin-T
Comparison to ViT, DeiT & Swin on pose estimation
Comparison to HRNet
04
END
加入「Transformer」交流群👇备注:TFM
赞 (0)