视觉显著变压器

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

近年来,大量基于cnn架构的显著性检测方法取得了很好的效果。另外,作者从无卷积的序列到序列的角度重新思考这个任务,并通过建模长期依赖来预测显著性,而这是卷积无法实现的。具体地说,作者开发了一个基于纯变压器的统一模型,即视觉显著性变压器(VST),用于RGB和RGB- d显著目标检测(SOD)。它以图像块作为输入,利用变压器在图像块之间传播全局上下文。在视觉变压器(Vision transformer, ViT)中,除了使用传统的变压器架构外,作者利用多级令牌融合,提出了一种新的令牌上采样方法,在变压器框架下获得高分辨率的检测结果。通过引入与任务相关的标记和一种新的补丁-任务注意机制,作者开发了一个基于标记的多任务解码器来同时执行显著性和边界检测。实验结果表明,作者的模型在RGB和RGB- d SOD基准数据集上都优于现有的最新结果。最重要的是,作者的整个框架不仅为超氧化物歧化酶领域提供了一个新的视角,而且为基于变压器的密集预测模型提供了一个新的范式。

论文创新点

作者的主要贡献总结如下:

作者首次从序列到序列建模的新视角,设计了一种基于纯变压器架构的RGB和RGB- d SOD的统一模型。

通过引入任务相关标记和补丁任务注意,设计了一种多任务互感器解码器来联合进行显著性和边界检测。

提出了一种新的基于变压器的令牌上采样方法。

作者提出的VST模型在RGB和RGB- d SOD基准数据集上都取得了最先进的结果,这表明了基于变压器的SOD模型的有效性和潜力。

框架结构

作者为RGB和RGB- d SOD提出的VST模型的总体架构。虚线表示RGB-D SOD专用组件

  1. T2T模块[73]和(b)作者提出的反向T2T模块的细节

实验结果

对最先进的RGB- d(左)和RGB(右)SOD方法进行定性比较。(GT:地面实况)

结论

在本文中,作者首次从序列到序列的角度重新思考超氧化物歧化酶,并开发了一个基于纯变压器的新颖统一模型,用于RGB和RGB- d超氧化物歧化酶。针对变压器在密集预测任务中应用的困难,提出了一种新的在变压器框架下的令牌上采样方法,并融合多级补丁令牌。通过引入与任务相关的标记和一种新的补丁-任务-注意机制,设计了一个多任务译码器来共同执行显著性和边界检测。作者的VST模型在不依赖大量计算代价的情况下,实现了RGB和RGB- d SOD的最先进性能,因此显示了其巨大的有效性。作者还为如何在密集预测任务中使用变压器这一开放式问题建立了一个新的范例。

论文链接:https://arxiv.org/pdf/2104.12099.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐