NeurIPS2021 HRFormer：HRNet又出续作啦！国科大&北大&MSRA提出高分辨率Transformer，开源！

2024-04-05 21:20:45

详细信息如下：

论文链接：https://arxiv.org/abs/2110.09408
项目链接：https://github.com/HRNet/HRFormer

导言：

在本文中，作者提出了一种高分辨率 Transformer（High-Resolution Transformer ，HRT），用于学习密集预测任务的高分辨率表示，而原始的视觉Transformer 只能处理低分辨率表示，并且具有较高的显存和计算成本。

HRT利用了高分辨率卷积网络（HRNet）中引入的多分辨率并行设计，并且在非重叠的局部窗口上执行自注意，提高了显存和计算效率。此外，作者在FFN中引入卷积，以便在没有连接的图像窗口之间交换信息。

通过实验，作者证明了高分辨率Transformer 在人体姿势估计和语义分割任务上的有效性，例如，HRT在COCO姿势估计上比Swin Transformer高1.3AP，参数减少50%，FLOPs减少了30%。

Motivation

Vision Transformer（ViT）在ImageNet分类任务中表现出了良好的性能。许多后续工作通过知识蒸馏，采用更深层次的结构，直接引入卷积运算或者重新设计输入图像token等方法来提高分类精度。此外，一些研究试图扩展Transformer以解决更广泛的视觉任务，如目标检测、语义分割、姿势估计、视频理解等。本文的重点是构建用于密集预测任务的Transformer，包括姿势估计和语义分割。

Vision Transformer将图像分割为大小为16×16的图像块序列，并提取每个图像块的特征表示。因此，Vision Transformer的输出表示失去了密集预测所必需的细粒度空间细节。Vision Transformer仅输出单尺度特征表示，因此缺乏处理多尺度变化的能力。为了减少特征粒度的损失并对多尺度变化进行建模，作者提出了包含更丰富空间信息的高分辨率Transformer（HRT），并为密集预测构造多分辨率表示。

高分辨率Transformer采用HRNet中采用的多分辨率并行设计。首先，HRT在stem层和第一阶段都采用卷积，因为一些研究也表明卷积在早期阶段表现更好。第二，HRT在整个过程中保持一个高分辨率流，而并行的中、低分辨率分支有助于提高高分辨率的表示。由于具有不同分辨率的特征图，因此HRT能够模拟多尺度变化。第三，HRT通过与多尺度融合模块来交换多分辨率特征信息，实现了混合了近距离和远距离的Attention。

作者将特征映射划分为一组不重叠局部窗口，并在每个图像窗口中分别进行自注意。这就减少了显存，并将计算复杂性从与空间大小的二次关系降低到线性关系。作者进一步将3×3深度卷积引入到跟随局部窗口自注意的前馈网络（FFN）中，使得自注意过程中断开的图像窗口之间能够交换信息。这有助于扩大感受野，对于密集的预测任务至关重要。上图展示了HRT中Transformer块的详细结构。

方法

2.1. Multi-resolution parallel transformer

作者遵循了HRNet的设计，从一个高分辨率卷积stem层开始作为第一阶段，逐步将高分辨率到低分辨率的流逐个添加为新阶段，多分辨率流并行连接。主体结构由一系列阶段组成，在每个阶段中，每个分辨率流的特征表示分别使用多个Transformer块进行更新，并且跨分辨率的信息通过卷积多尺度融合模块进行交换。

上图展示了整个HRT的结构。卷积多尺度融合模块的设计与HRNet相同。

2.2. Local-window self-attention

首先将特征映射划分到一组不重叠的小窗口：，其中每个窗口大小为K×K，HRT在每个窗口内独立执行多头自注意力（MHSA）。第p个窗口上的多头自注意公式如下所示：

其中，

，代表头的数量，代表通道的数量，代表输入的分辨率，代表MHSA的输出。

然后作者聚合了每个窗口的特征，如下所示：

上图的左半部分说明了局部窗口的自注意是如何更新2D输入表示的，其中多头自注意在每个窗口内独立运行。

2.3. FFN with depth-wise convolution

局部窗口的自注意在非重叠窗口上分别执行自注意，而没有跨窗口的信息交换。为了解决这个问题，作者在视觉Transformer中FFN的两个MLP之间添加了3×3深度卷积：。上图的右部分显示了FFN如何使用3×3深度卷积更新2D输入表示。

2.4. Representation head designs

HRT的输出由四个不同分辨率的特征图组成。不同任务的表示头设计如下所示：

在ImageNet分类中，作者将四分辨率特征映射送到bottleneck中，输出通道分别更改为128，256，512和1024。然后，作者用卷积对它们进行融合，并输出2048个通道的最低分辨率特征图。最后，用一个全局平均池化操作，然后是最终的分类器。
在姿势估计中，作者只在最高分辨率的特征图上应用回归头。
在语义分割中，作者将语义分割头应用于concat之后的特征表示（首先将所有低分辨率表示向上采样到最高分辨率，然后将它们concat在一起）。

2.6. Instantiation

上表中展示了HRT的总体结构。使用（M1，M2，M3，M4）和（B1，B2，B3，B4）分别表示{state1，stage2，stage3，stage4}的module数和block数；使用（C1、C2、C3、C4）、（H1、H2、H3、H4）和（R1、R2、R3、R4）表示与不同分辨率相关的Transformer块中的通道数、头数和MLP扩展比。

第一阶段和HRNet的模块相同，在其他阶段应用Transformer块，每个Transformer块由一个局部窗口自注意和一个具有3×3深度卷积的FFN组成。

在实现中，默认情况下，四个分辨率流上的窗口大小设置为（7,7,7）。上表说明了三种不同HRT实例的配置细节，这些实例的复杂性不断增加，其中MLP扩展比（R1、R2、R3、R4）在所有模型中均设置为（4,4,4,4）。

2.7. Analysis

3×3深度卷积的好处有两个：一个是增强局部性，另一个是支持跨窗口的交互。如上图所示，具有深度卷积的FFN能够充分建模非重叠的局部窗口。因此，基于局部窗口自注意和具有3×3深度卷积的FFN的组合，作者构建了HRT的Transformer块，从而显著提高显存和计算的效率。

实验

3.1 Human Pose Estimation

上表展示了 COCO val set上人体姿态估计任务的实验结果。

上表展示了 COCO test-dev set上人体姿态估计任务的实验结果。

上图展示了COCO上人体姿态估计的一些定性实验结果。

3.2 Semantic Segmentation

上表展示了不同数据集上，本文方法和其他方法进行语义分割的实验结果。

上图展示了不同数据集上，本文方法进行语义分割的定性实验结果。

3.3 ImageNet Classification

上表展示了分类任务上，本文方法的实验结果。

3.4 Ablation Experiments

Influence of 3×3depth-wise convolution within FFN

上表展示了FFN中3x3卷积的必要性。

Influence of shifted window scheme & 3×3 depth-wise convolution within FFN based on Swin-T

上表展示了Swin Transformer中，FFN中3x3卷积的必要性。

Comparison to ViT, DeiT & Swin on pose estimation

上表展示了其他Transformer网络在姿态估计上的实验结果。

Comparison to HRNet

上表展示了HRNet和HRT的实验结果对比，可以看出HRT的性能比HRNet还要好。

总结

在本文中，作者提出了高分辨率Transformer（HRT），这是一种简单但有效的Transformer架构，用于密集的预测任务，包括姿势估计和语义分割。该网络设计的关键是HRT transformer块，它将局部窗口自注意和带深度卷积的FFN相结合，以提高显存和计算效率。此外，HRT的优异性能还得益于在早期阶段采用卷积，并将短程和远程注意力与多尺度融合的方案相结合。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

加入「Transformer」交流群👇备注：TFM

DSRL：灵活而简单的框架,提高网络精度的且不引入额外的计算量,CVPR2020

作者丨Z 审稿丨邓富城编辑丨极市平台极市导读本文提出DSRL框架,引入了超分辨率作为辅助支路,来帮助网络保持高分辨率特征信息,并且在推理阶段将其从网络中删除,从而降低了算力(金钱)的消耗. &g ...
用于道路场景实时准确语义分割的深度双分辨率网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
【PS教程】PS隐藏功能将照片从低分辨率转换成高分辨率

【PS教程】PS隐藏功能将照片从低分辨率转换成高分辨率
NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率...

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 219篇原创内容公众号本文转载自: ...
Conformer: 卷积增强的Transformer

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的.完整的知识结构体系. 以下是要写的文章,本文是这个系列的第二十一篇,内容较为深入,需要学习基础的同学点击 ...
【知识星球】网络结构1000变上线，下半年更新500+网络模型解读

有三AI知识星球的"网络结构"板块已经正式升级为"网络结构1000变",顾名思义,就是要更新1000+网络结构解读,同时该板块还有以下变化. 更新频率由一天一篇 ...
YOLOv4一作提出Transformer新架构：DPT！替代卷积网络做密集预测

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 220篇原创内容 Official A ...
别再问我某某动漫何时出续作啦！一篇文章全部看懂

我的后台经常会有朋友问到文章里提到的一些动漫相关的问题,而私信问得最多的问题,大概就是XX动漫何时可以出第二季,出第三季,出第四季,之类的问题.这一期我就统一回答,关于动漫出续作的问题.这里的问题是根 ...
有哪些游戏是你觉得不需要再出续作的？丨问爆触乐

问爆触乐是我们的问答互动栏目,每周日推出.每期提出一个问题邀请大家来回答互动,如果你有什么希望看到大家看法的好问题,也可以在后台告诉我们. 各位尊贵的读者们好! 上一期问爆触乐<哪些游戏厂商的反 ...
未来游戏展看点汇总：求生之路出“续作？”

雷科技游戏组编辑丨雷玩社近日,未来游戏展公布了一系列新游戏的消息,这一次公布的游戏业尽显"未来"特色,数款未来题材游戏都在这次游戏展显露出其特色. 不仅有像<量子误差&g ...
这款经典恐怖游戏终于出续作，网友：情人节营业好样的！

今天,2021年3月14日,一个平平无奇的星期天. 然而,早在半个月前,这个日子就曾登上过热搜,并成功引起了众多网友的讨论. 为啥?还不是因为又是传说中的谐音梗,爱你啊,一生一世. 晓生我非常明白各位 ...
2048环游世界欧美篇：精美2048小程序游戏出续作了！

50000+游戏爱好者已加入我们! 每天推荐好玩游戏! 关注我们,沐沐带你发现好游戏! <2048环游世界欧美篇>游戏小程序好玩吗? <2048环游世界欧美篇>小游戏怎么玩? ...
《海岛奇兵》终于出“续作”了，Supercell 3.6亿收购的团队见到了成果

时隔7年之后,<海岛奇兵>IP有了新作,但却不是Supercell做的.文/安德鲁<海岛奇兵>原本可能是Supercell起家的几大IP里,存在感最弱的一个.相比让Superc ...
杀人不犯法系列再出续作，燃炸了！

暴力爽片<人类清除计划>系列又出新作啦!第五部名为"无限狂屠",剧情承接的是<人类清除计划3>.第三部结尾,女议员当选总统,将"清除法" ...
这部漫改电影要出续作了！

▲平野紫耀和桥本环奈由平野紫耀(男子组合King&Prince成员)和桥本环奈共同主演的电影<辉夜大小姐想让我告白:天才们的恋爱头脑战>(2019年上映)的续作<辉夜大小姐 ...
成功的老作品续作纷纷翻车，你支持自己喜欢的老动画出续作吗？

如果你是一个关注新番的动漫迷,并且会认真去多追几部每个季度热门的新番,那我觉得你不难得到一个结论,大多数情况,新作品比老番的续篇是要好看的. 诸多经典的老IP的续作都面临翻车的窘境. <魔法禁书 ...