GCNet：当Non-local遇见SENet

2024-07-31 21:07:00

作者简介

陀飞轮：复旦大学研究生在读，研究方向是目标检测、分割、跟踪

好文！非常insight！研究思路类似于DPN，DPN深入探讨了ResNet和DenseNet的优缺点，然后结合ResNet和DenseNet的优点提出了DPN，同样GCNet深入探讨了Non-local和SENet的优缺点，然后结合Non-local和SENet的优点提出了GCNet。

Motivation

为了捕获长距离依赖关系，产生了两类方法：

第一种是采用自注意力机制来建模query对的关系。
第二种是对query-independent(可以理解为无query依赖)的全局上下文建模。

NLNet就是采用自注意力机制来建模像素对关系。然而NLNet对于每一个位置学习不受位置依赖的attention map，造成了大量的计算浪费。

SENet用全局上下文对不同通道进行权值重标定，来调整通道依赖。然而，采用权值重标定的特征融合，不能充分利用全局上下文。

通过严格的实验分析，作者发现non-local network的全局上下文在不同位置几乎是相同的，这表明学习到了无位置依赖的全局上下文。

基于上述观察，本文提出了GCNet，即能够像NLNet一样有效的对全局上下文建模，又能够像SENet一样轻量。

Revisiting the Non-local Block

non-local block旨在从其他位置聚集信息来增强当前位置的特征。将输入的feature map定义为，为feature map的位置数量。和定义为non-local block的输入和输出。

non-local block可以表示为：

为位置的索引，枚举所有可能的位置。表示位置和的关系，为归一化因子。和表示线性转换矩阵(例如1x1卷积)。为了简单起见，定义为位置和的归一化关系。本文中将表示为Embedded Gaussian的形式，定义为。

作者从COCO数据集中随机选择6幅图，分别可视化3个不同位置和它们的attention maps。作者发现对于不同位置来说，它们的attention maps几乎是相同的。作者通过分析不同位置全局上下文的距离，进一步证明了这一点。换句话说，虽然non-local block想要计算出每一个位置特定的全局上下文，但是经过训练之后，全局上下文是不受位置依赖的。

Simplifying the Non-local Block

基于上述观察，作者通过计算一个全局的attention map来简化non-local block，并且对所有位置共享这个全局attention map。忽略，简化版的non-local block定义为：

和表示为线性转换矩阵。

为了进一步减少简化版non-local block的计算量，将移到attention pooling的外面，表示为：

这样修改之后，1x1卷积的FLOPs从降到了。

不同于原始的non-local block，简化版non-local block的第二项是不受位置依赖的，所有位置共享这一项。因此，作者直接将全局上下文建模为所有位置特征的加权平均值，然后聚集全局上下文特征到每个位置的特征上。

Global Context Modeling Framework

简化版的non-local block可以抽象为3个步骤：

(a)全局attention pooling：采用1x1卷积和softmax函数来获取attention权值，然后执行attention pooling来获得全局上下文特征。

(b)特征转换：采用1x1卷积。

(c)特征聚合：采用相加操作将全局上下文特征聚合到每个位置的特征上。

作者将该抽象过程作为全局上下文建模的框架，定义为：

(a) 表示context modeling模块，通过权值聚合所有位置的特征来获得全局上下文特征。

(b) 表示使用特征transform来捕获通道间的依赖。

SE block也可以抽象成3个步骤：

(a)global avg pooling用于上下文建模(即squeeze operation)。

(b)bottleneck transform用于计算每个通道的重要程度(即excitation operation)。

(c)rescaling function用于通道特征重标定(即element-wise multiplication)。

Global Context Block

作者提出了一种新的全局上下文建模框架，global context block(简写GCNet)，即能够像SNL block一样建立有效的长距离依赖，又能够像SE block一样省计算量。

在简化版的non-local block中，transform模块有大量的参数。为了获得SE block轻量的优点，1x1卷积用bottleneck transform模块来取代，能够显著的降低参数量(其中r是降低率)。因为两层bottleneck transform增加了优化难度，所以在ReLU前面增加一个layer normalization层(降低优化难度且作为正则提高了泛化性)。

GC block表示为：

是全局attention pooling的权值，

表示为bottleneck transform。

GC block的3个步骤为：

(a)global attention pooling用于上下文建模。

(b)bottleneck transform来捕获通道间依赖。

(c)broadcast element-wise addition用于特征融合。

为什么Non-local和SENet有效

其实仔细一想，卷积也能拆分成空间依赖、通道依赖、特征融合三个步骤，Non-local和SENet有效主要是因为context modeling，卷积只能对局部区域进行context modeling，导致感受野受限制，而Non-local和SENet实际上是对整个输入feature进行context modeling，感受野可以覆盖到整个输入feature上，这对于网络来说是一个有益的语义信息补充。另外，网络仅仅通过卷积堆叠来提取特征，其实可以认为是用同一个形式的函数来拟合输入，导致网络提取特征缺乏多样性，而Non-local和SENet正好增加了提取特征的多样性，弥补了多样性的不足。

GCNet充分结合了Non-local全局上下文建模能力强和SENet省计算量的优点，在各个计算机视觉任务上得到更好的结果。

其实论文中还有一个地方没有讲清楚，就是Non-local block为什么经过训练后不受位置依赖呢，有没有大佬给我解答一下~，感谢！

是不是因为Non-local更关注于那些需要focus的物体，从而去掉了那些不需要focus的冗余特征，所以导致了每个位置的attention map基本上只覆盖到前景物体上。

Reference

1.Squeeze-and-Excitation Networks

https://arxiv.org/abs/1709.01507

2.Non-local Neural Networks

https://arxiv.org/abs/1711.07971v1

3.GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

https://arxiv.org/abs/1904.11492?context=cs.LG

欢迎交流指正~

CPTR：用于图像添加主题的全Transformer网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
前端js中var的执行上下文

//变量提升:var声明的变量(除函数内),值提升变量的声明. // console.log(i); // var i=0; // console.log(i); //函数提升:字面量声明的函数,提升 ...
用于RGB-D语义分割的全局-局部传播网络

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
一年六篇顶会的清华大神提出Fastformer：史上最快、效果最好的Transformer

新智元报道来源:arXiv 编辑:LRS [新智元导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练 ...
用于目标检测的半自动视频标注

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
install OpenSSL and rebuild ruby (preferred) or use non-HTTPS sources

2.在ubuntu 下安装先安装ruby,下载源代码(rubyonrails.org/download),解压进入一级目录(ruby 也可以用本地包管理器安装) $ ./configure $ ma ...
Fastformer：简单又好用的Transformer变体！清华&MSRA开源线性复杂度的Fastformer！

0 写在前面 Transformer是一个强大的文本理解模型.然而,由于其对输入序列长度呈二次计算复杂度,Transformer是效率是比较低下的.虽然Transformer加速有很多方法,但在长序列 ...
MASTER：全局上下文建模大幅提高文本识别精度

该文作者信息: 作者单位为来自国内的平安产险视觉团队和徐州医科大学. 现实中出现的规则和不规则文本示例: 该文指出,目前基于注意力机制的自然场景文字识别方法在OCR领域取得了很大成果,成功的主要原因是 ...
【模型解读】从“局部连接”回到“全连接”的神经网络

09 这是深度学习模型解读第9篇,本篇我们简单介绍非局部神经网络. 言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人作者 | 言有三(微信号:Longlongtogo) 编辑 | ...
秋思梦景的图书馆音乐：我在红尘中遇见你

我在红尘中遇到你 http://webftp.bbs.hnol.net/bingdian/swf/2016/hongchenyujianni.swf(910*580px)
中国当代文化研究学者雷学刚佳作《感悟遇见》

感悟遇见雷学刚人生就是一场盛大的遇见.世上的一切遇见,皆是前世今生的缘. 世上没有无缘无故的爱,也没有无缘无故的恨.爱恨情仇,皆是尘缘,均要善待.爱让我们的生命温暖和感动,情让我们陶醉友谊芬芳,恨 ...
4月吃它正当季，遇见别手软，鲜嫩下饭，随便一炒就很香

4月吃它正当季,遇见别手软,鲜嫩下饭,随便一炒就很香时间真快,一转眼就已经到了4月份了,大地万物复苏,一片春暖花开的景象,食材的种类也开始丰富了起来,虽然说现在的食材一年四季都能吃到,但是古人云,时 ...
散文：人生路上风雨兼程，也遇见更多的美丽

人生难免起起落落,遇到伤害和挫折,我们累过.哭过.失望过.痛苦过,但是从来没有放弃过.因为我们知道:阳光总在风雨后,不历经风雨怎么能见彩虹? --题记人生执念一程山水,一路走来风雨兼程,轻描淡写的水 ...
《时间倒数遇见你》定档，女主曾出演过大江大河，知否等多部剧

<时间倒数遇见你>将于6月18日播出,李宏毅.施诗上演"豪横姐弟恋". 由沈婳执导的都市情感剧<时间倒数遇见你>,将于6月18日在腾讯视频播出.该剧由李宏毅 ...
中药师教您如何一秒止牙痛/安全、有效、可行#用药科普遇见药师#

中药师教您如何一秒止牙痛/安全、有效、可行#用药科普遇见药师#
最在乎的某人，遇见你，是今生的幸运，爱上你，是今生的值得

有些人,明知缘浅难相守,偏偏执迷不悟:有些情,分明花落已成殇,偏偏梦绕魂牵. 每个人的灵魂深处,或多或少都藏着一些自己无法左右的痴念,我的痴念就是对你的在乎. 这些年,我走了许多路,见过许多人,看过许 ...
人生路上风雨兼程，也遇见更多的美丽

原创子墨文学作者:子墨人生难免起起落落,遇到伤害和挫折,我们累过.哭过.失望过.痛苦过,但是从来没有放弃过.因为我们知道:阳光总在风雨后,不历经风雨怎么能见彩虹? --题记人生执念一程山水,一路 ...
小确幸：爱种多肉的我，遇见一个用多肉换来的老公……

前言正文开始: 感谢作者[燕子姐姐]的原创独家授权分享投稿日期:2021-03-23 编辑整理:[多肉植物百科]百科君坐标:四川成都遇见多肉已6年有余,最开始养并没有多么用心,有一天小 ...