重大里程碑！VOLO屠榜CV任务，无需额外数据，首次在ImageNet 上达到87.1%

2024-06-04 08:28:56

深度学习技术前沿

126篇原创内容

Official Account

链接：https://arxiv.org/abs/2106.13112
代码：https://github.com/sail-sg/volo
作者单位：新加坡国立大学颜水成团队

导读

近期Transformer的一系列变体在Imagenet分类任务上取得了显著的效果提升，指标屡创新高。如果没有额外数据的输入，它们的性能仍然不如最新的SOTA CNN模型。就在今天，颜水成大佬团队提出的VOLO打破了Transformer无法打败最优CNN的宿命，成为了ImageNet数据上首个无需额外数据达到87.1%的模型；此外，预训练好的VOLO模型还可以很好地迁移到下游任务，如语义分割。我们在Cityscapes验证集上获得了84.3% mIoU，在ADE20K验证集上获得了54.3% mIoU。

1摘要

视觉识别任务已被CNN主宰多年。基于自注意力的ViT在ImageNet分类方面表现出了极大的潜力，在没有额外数据前提下，Transformer的性能与最先进的CNN模型仍具有差距。在这项工作中，我们的目标是缩小这两者之间的性能差距，并且证明了基于注意力的模型确实能够比CNN表现更好。与此同时，我们发现限制ViTs在ImageNet分类中的性能的主要因素是其在将细粒度级别的特征编码乘Token表示过程中比较低效，为了解决这个问题，我们引入了一种新的outlook注意力，并提出了一个简单而通用的架构，称为Vision outlooker (VOLO)。outlook注意力主要将fine-level级别的特征和上下文信息更高效地编码到token表示中，这些token对识别性能至关重要，但往往被自注意力所忽视。实验表明，在不使用任何额外训练数据的情况下，VOLO在ImageNet-1K分类任务上达到了87.1%的top-1准确率，这是第一个超过87%的模型。此外，预训练好的VOLO模型还可以很好地迁移到下游任务，如语义分割。我们在Cityscapes验证集上获得了84.3% mIoU，在ADE20K验证集上获得了54.3%的mIoU，均创下了最新记录。

2介绍

在这项工作中，我们提出了一种新的简单和轻量级的注意力机制，称为Outlooker，它可以有效地丰富token表示中更细粒度级别的特征信息。Outlooker创新的采用了将token进行聚合然后生成注意力的方式，这样可以使得模型能够有效地对细粒度级别信息进行编码表示。特别是，它是一种可以通过有效的线性映射直接从锚点标记特征中推断出聚合周围标记的机制，从而可避免昂贵的点积注意力计算。最后，基于所提出的outlook，我们提出了VOLO，一个简单而强大的视觉识别模型结构。VOLO采用两阶段架构设计，同时考虑了更具细粒度的标记表示编码和全局信息聚合。具体来说，给出一个大小为的输入图像，在利用自注意力在coarse level级别特征上构建全局依赖关系之前(例如，)， VOLO将图像标记在较小尺寸的patch上(例如，)，并使用多个outlook在细粒度级别上编码标记表示(例如，)。这样，最后所获得的token表示会更具有代表性，从而可显著提高模型在图像分类中的性能。VOLO与目前的SOTA模型的性能比较，如下表所示：

2方法

VOLO可以看作是一个具有两个独立阶段的结构。第一阶段多个用于生成细粒度token表示的Outlookers。第二阶段我们部署一系列Transformer block来聚合全局信息。在每个阶段的最开始，使用一个patch embedding模块将输入映射到期望形状大小的的token表示中。

2.1 Outlooker

outlook包括用于空间信息编码的outlook注意力层和用于通道间信息交互的多层感知器(MLP)。给定输入token表示序列, outlooker可以写成如下:

2.2 Outlook attention

如上图所示，Outlook attention简单，高效，易于实现。它的主要创新点就是:

每个空间位置上的特征足够全面，可以聚集其邻近特征然后生成局部注意力权值;
稠密的局部空间聚合可以高效的编码细粒度信息。

对于每个空间位置， outlook注意力计算以为中心的大小为的局部窗口内所有邻近结点的相似度。不同于自我注意力需要一个Query-Key矩阵乘法来计算注意力，outlook直接通过一个简单的reshape操作来简化这个过程。具体来说，输入每个 token使用两个线性层

进行映射得到outlook权重, value表示,然后我们用来表示在以为中心的局部窗口的所有value:

最后，在位置的outlook 权重可以直接用作注意力权值，首先可以通过一个reshape操作（）后接Softmax：

权值投影过程可以表示为:

2.3 Dense Aggregation

outlook 注意力将特征进行聚集映射，即将同一位置的不同加权值相加得到输出：

具体代码如下:

2.4 Discuss

outlook attention继承了卷积和自我注意力的优点。具体如下：

outlook注意力通过度量每对标记表示之间的相似性来对空间信息进行编码，在特征学习方面比卷积更具有参数效率；
outlook attention采用滑动窗口方式，在细粒度级别实现了对标记表示进行局部编码，并在一定程度上保留视觉任务的关键位置信息；
outlook产生注意力权重的方法简单有效。与依赖于query-key矩阵乘法的自我注意力不同，我们的outlook权重可以通过一个简单的reshape操作直接产生，节省计算。具体示例如下：我们比较了在滑动窗口大小为, token大小为上计算参数量：

可以看到，当C=384,K=3,N=6时，因为，，所以outlook attention在计算资源利用上更高效。

3模型架构

主要借鉴了LV-ViT模型，VOLO的具体设置如下：为了获取到细粒度的token表示，在第一阶段，我们首先调整patch嵌入模块，使其在大小为的小图像patch上进行标记序列化，而不是。然后通过堆叠一系列Outlookers生成更具细粒度特征表达能力的token表示。第二阶段，利用另一个patch embedding 模块对标记进行下采样。然后采用一组Transformer block对全局信息进行编码。我们基于VOLO提出了五个版本: VOLO: VOLO-D1, VOLO-D2,VOLO-D3, VOLO-D4, and VOLO-D5. 具体详细结构及配置信息如表2，表3所示：

4实验结果

4.1 Image Classification

如上表所示，在不同的模型尺寸水平上，我们提出的VOLO取得了比当前最先进的模型更佳的性能。具体如下：

VOLO-D1只有26.6M参数量，在输入图片为224分辨率大小时，VOLO-D1在ImageNet上已经可以获得84.2%的top-1精度。对输入图片为384分辨率大小进行微调后，性能进一步提高到85.2%，明显优于所有具有相同训练参数的模型。
当模型尺寸缩放到296M时，我们可以在ImageNet上达到87.1%的top-1精度，在没有额外训练数据的情况下创造了新的记录。VOLO-D5是业界首个仅需ImageNet训练数据即可达到87.1%top1精度的模型。

与当前最先进的Transformer模型LV-Vit-S相比，具体如下表所示:

显然，VOLO仅使用27M的参数量，性能可以从83.3提高到85.2(+1.9)。我们还尝试用其它的细粒度特征编码方法来替代所提出的outlook注意，包括局部自注意力和空间卷积。为了进行公平的比较，我们将窗口大小设置为。结果见表6。

可以看出，在相同的训练配置和架构下，我们的outlooker比局部自我注意力和空间卷积都表现得更好。此外，我们还可以观察到，在以LV-ViT-S为基准模型时，局部自注意力和空间卷积也可以提高性能，这表明对细粒度级别的标记表示进行编码对性能提升是有帮助的。

4.2 Semantic Segmantation

如下表9所示，在Cityscapes数据上，所提方法超过了其他所有方法，包含最近的SegFormer-B5.

如下表10所示，在ADE20K数据集上，所提方法同样取得了超过其他所有方法的性能。VOLO-D5取得了54.3%的指标，同样刷新了ADE20K数据集上的记录。

5
消融实验

5.1 Model Scaling

我们对VOLO-D1模型进行缩放得到4个不同模型(VOLO-D2-VOLO-D5) 主要缩放策略如下：

增加训练模型大小,包括MLP中的网络深度,隐藏维度,expansion ratio；Outlookers和Transformer中的head数量;
在微调和测试阶段提高图像分辨率。

上表对比了模型缩放的性能影响，从中可以看到：

模型缩放有助于提升模型性能，比如VOLO-D1到VOLO-D2可以带来1%的性能提升，VOLO-D5可以带来额外的1%提升；
更高分辨率的微调同样可以带来性能提升，约1%。

5.2 Number of Outlookers

我们观察到，在VOLO中使用的Outlookers的数量对分类性能有影响。在这里，我们研究了使用不同数量的outlook在VOLO中的影响。请注意，所有的Outlooker都作用于更精细的标记表示(28 28)。结果显示在表8的顶部部分。在没有outlook的情况下，有16个变压器的基线精度为83.3%。增加Outlookers的数量可以改善结果，但性能饱和时使用4 Outlookers。进一步增加更多的outlook不会带来任何性能的提高。因此，当放大模型时，我们大约使用1:3的比例为outlook和transformer。

5.3 Head Number in Ourlookers

在Transformer中，每个head的通道维度与给定的固定隐藏维度的head数量成反比，基于此，我们展示了不同head数量的Outlookers性能比较。实验表明，在Outlookers中使用更多的head可以略微改善性能，几乎没有额外的参数增加，但当head数量大于6时，性能增益将消失。因此，默认情况下，我们将Outlookers中的head数量设置为6，用于384个隐藏维度。当隐藏维度设置为768时，我们在Outlookers中使用12个head。

6总结

我们提出了一种新的模型——Vision Outlooker (VOLO)，它解决了ViT在对细粒度特征编码为token表示过程比较低效的问题，我们提出的outlook注意力能够将更具细粒度级别的特征和上下文信息高效地编码到token表示中。我们提出VOLO主要包括两个阶段，第一个阶段包含多个用于生成细粒度token表示的Outlookers；第二个阶段部署Transformer block来聚合全局信息。最后，无需任何额外训练数据，VOLO在ImageNet分类任务上成为了首个达到87.1%top1精度的模型。预训练的VOLO在下游任务上的迁移能力也非常好，在语义分割任务中，在ADE20K验证集上达到了54.3%，在Cityscapes验证集上达到了84.3%的mIoU指标，均创下了新记录。

【AI有识境】如何掌握好图像分类算法？

大家好,这是专栏<AI有识境>的第一篇文章,讲述如何掌握好图像分类算法. 进入到有识境界,可以大胆地说自己是一个非常合格的深度学习算法工程师了,能够敏锐地把握自己研究的领域,跟踪前沿和能落 ...
各类Transformer都得稍逊一筹，LV-ViT：探索多个用于提升ViT性能的高效Trick

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文探索了用于提升ViT性能的各种训练技巧.通过一系列实验对比.改进与组合,本文所提方案取得了SOTA方案,超越了EfficientNet.T ...
MLP三大工作超详细解读：why do we need?

作者|科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文作者详细介绍了最近火爆CV圈三项关于MLP的工作. >>加入极市CV技术交流群,走在计算机视觉的最前沿专栏目录:https:/ ...
如何做深ViT模型？NUS、字节：引入Re-attention机制，实现强大性能

CNN 通过堆叠更多的卷积层来提高性能,而 transformer 在层次更深时会很快进入饱和.基于此,来自新加坡国立大学和字节跳动 AI Lab 的研究者引入了 Re-attention 机制,以很 ...
ICCV2021-PiT-池化操作不是CNN的专属，ViT说：“我也可以”；南大提出池化视觉Transformer（PiT）

详细信息如下: 论文链接:https://arxiv.org/abs/2103.16302 项目链接:https://github.com/naver-ai/pit 导言: Vision Transf ...
Facebook最新力作FBNetV3来了！相比ResNeSt提速5倍，精度不输EfficientNet

加入极市专业CV交流群,与 10000+来自港科大.北大.清华.中科院.CMU.腾讯.百度等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注 ...
GPT

编辑:贾伟梦佳继GPT-3的颠覆之后,即将出道的 GPT-4 会走向何方?这一问题牵动着很多人的心. 在不久前,OpenAI的联合创始人.首席科学家IIya Sutskever 曾在吴恩达编辑的 ...
CNN与Transformer的强强联合！谷歌最新开源BoTNet，ImageNet达84.7%准确率

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读 Conv+Transformer=BotNet,这是伯克利.谷歌最新提出的工作BotNet,它充分利用了CNN与自注意力的优势,在ImageN ...
通道注意力新突破！从频域角度出发，浙大提出FcaNet：仅需修改一行代码，简洁又高效

作者丨Happy 编辑丨极市平台极市导读本文介绍了一种非常巧妙的通道注意力机制,从频域角度分析,采用DCT对SE进行了扩展.所提方法简单有效仅需更改一行代码即可实现比SENet50提升1.8%的性 ...
搞懂Vision Transformer 原理和代码，看这篇技术综述就够了(三)

作者丨科技猛兽来源丨极市平台审核丨邓富城极市导读本文为详细解读Vision Transformer的第三篇,主要解读了两篇关于Transformer在识别任务上的演进的文章:DeiT与VT.它 ...
ResNet被全面超越了，是Transformer干的：依图科技开源“可大可小”T2T-ViT，轻量版优于MobileNet

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读又一篇Transformer来了!本文在ViT方面进行了一次突破性探索,提出了首次全面超越ResNet,甚至轻量化版本优于MobileNet系 ...
CNN终于杀回来了！京东AI开源最强ResNet变体CoTNet：即插即用的视觉识别模块

作者丨happy 编辑丨极市平台极市导读本文创造性的将Transformer中的自注意力机制的动态上下文信息聚合与卷积的静态上下文信息聚合进行了集成,提出了一种新颖的Transformer风格的& ...
CVPR 2021 比CNN和Transformer更好的Backbone？伯克利&谷歌提出BoTNet，精度达84.7%

详细信息如下: 论文链接:https://arxiv.org/abs/2101.11605 项目链接:https://github.com/lucidrains/bottleneck-transfor ...
谷歌最新提出无需卷积、注意力，纯MLP构成的视觉架构！网友：MLP is All You Need...

当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步.近日,来自谷歌大脑的研究团队(原 ViT 团队)提出了一种 ...
谷歌研究员：Transformer那些有趣的特性

作者丨ChaucerG 来源丨集智书童编辑丨极市平台极市导读本文发现了Transformer的一些重要特性,如Transformer对严重的遮挡,扰动和域偏移具有很高的鲁棒性.与CNN相比,Vi ...
与SENet互补提升，华为诺亚提出自注意力新机制：Weight Excitation｜ECCV2020

作者|Happy 编辑丨极市平台极市导读注意力机制.动态卷积最近几年被研究得非常透了,不过前述方法大多聚焦于特征图层面,而该文则是从权值角度出发提出了一种非常有意思的机制.该文所提方法仅作用于训 ...
自注意力真的是Transformer的必杀技吗？MSRA否认三连，并反手给你扔来一个sMLPNet

作者丨happy 编辑丨极市平台极市导读本文构建了一种Attention-free.基于MLP的sMLPNet,主要将MLP模块中的token-mixing替换为稀疏MLP(sparse MLP, ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（六）

作者丨科技猛兽编辑丨极市平台极市导读本文为详细解读Vision Transformer的第六篇,主要介绍了2种将卷积引入Transformer模型的方法:CvT和CeiT.>>加入极 ...
MLP再添新砖，Facebook入局！ResMLP:完全建立在MLP上的图像分类架构

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读继谷歌MLP-Mixer引爆CV圈后,各高校也纷纷入场,facebook也不例外,在今天提出一种完全建立在MLP上的架构ResMLP用于图像分 ...
打破Transformer宿命，新秀VOLO开源！横扫CV多项记录，首个超越87%的模型

作者丨Happy 审稿|邓富城编辑丨极市平台极市导读一直以来,Transformer的性能距离最佳的CNN仍存在差距,而今天由颜水成团队开源的新秀VOLO打破了这一宿命,成为了ImageNet数 ...
Dropout也能自动化了，谷歌大神Quoc Le等人利用强化学习自动找寻模型专用Dropout

阅读大概需要5分钟 Follow小博主,每天更新前沿干货在机器学习领域里,Dropout 是一个较为重要的方法,其可以暂时丢弃一部分神经元及其连接,进而防止过拟合,同时指数级.高效地连接不同网络架构 ...
通道注意力超强改进，轻量模块ECANet来了！即插即用，显著提高CNN性能｜已开源

加入极市专业CV交流群,与 10000+来自港科大.北大.清华.中科院.CMU.腾讯.百度等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注 ...