计算成本缩减100倍!港中文提出语义分割新方法:张量低秩重建|ECCV2020 2024-06-05 03:47:05 提出背景:上下文信息在语义分割的作用很重要。目前的两种方法:一种是基于非局部自注意力对上下文信息进行收集。这种方法是用2D相似度矩阵描述3D上下文信息,但是这种空间压缩会导致通道方面的注意力的丢失。另一种方法是直接对上下文信息建模而不进行压缩,然而目前仍然没有成熟的方法。 论文链接:https://arxiv.org/pdf/2008.00490.pdf代码链接:https://github.com/CWanli/RecoNet基于以上两点,作者团队提出了一种对3D上下文表示建模的新方法,该方法不仅避免了空间压缩,而且还解决了高秩难题。作者的方法受到了张量正则-双峰分解理论(tensor canonical-polyadic decomposition theory)的启发。设计了一个从低到高的上下文重建框架。大致流程:首先引入张量生成模块(TGM),该模块生成许多秩-1张量以捕获上下文特征片段,然后将秩-1张量送入本文的张量重构模块(TRM)进行处理,恢复高秩上下文特征。最后通过实验证明,在各种公共数据集上都达到了SOTA。此外,在计算成本上,本文提出的方法的计算成本比传统基于non-local的方法要低100倍以上。 1.引言 语义分割旨在给定一张图片的基础上对其进行像素级别的预测。这项任务的起始研究是FCN,即全卷积网络,另外还有一些其他的方法也达到了很好的效果。这些方法通过对上下文张量的元素重要性进行评级来对上下文表示建模。然而,这种方法得到的上下文特征缺少通道注意力,而通道注意力则是上下文的关键部分。解决此问题的一个直观想法是直接构建上下文而不是使用2D相似度特征图。然而,由于上下文特征的高秩属性,这种方法面临着很大困难。因此,作者受到张量正则-双峰分解理论的启发,即,一个高阶张量可以表示为秩-1张量的组合。提出一种在不需要逐通道空间压缩的情况下对高秩上下文信息进行建模。图1表示整体流程 图1基本思想:首先使用一系列低秩张量来收集上下文特征的片段,然后将其重建以重构细粒度的上下文特征。本文的框架分为两个部分:秩-1张量生成模块(TGM)和高秩张量重建模块(TRM)TGM模块:旨在通道,高度和宽度维度上生成秩-1张量,从而在具有低秩约束的不同视图中探索上下文特征。TRM模块:采用张量规范-多态(CP)重构来重建高秩注意力特征图,其中基于不同视角的秩-1张量挖掘共现上下文信息。本文的具体贡献:1.揭示上下文建模的新途径,即上下文从低秩到高秩的重建。2.开发了新的语义分割框架RecoNet,该框架通过张量CP重建来探索上下文信息。它不仅保持了空间和通道方面的注意力,而且还解决了高秩困难。3.进行广泛的实验,将所提出的方法与其他各种公开数据集上的方法进行比较,从而获得显着的性能提升。此外,RecoNet的计算成本也更低。 2.方法 2.1总览受CP分解理论的启发,作者将上下文信息的建模分解为一系列低秩问题,这些低秩问题更易于处理。模型的流程图如图2所示。模型由低阶张量生成模块(TGM),高阶张量重构模块(TRM)和全局池化模块(GPM)组成,以在空间和通道维度上获取全局上下文。在语义标签预测之前使用双线性插值对模型输出进行上采样。 图2形式化定义,假设在C / H / W方向上有3r个向量:其中和r是张量的秩。这些向量是的CP分解片段,然后将张量CP 秩-r重建定义为:其中,λ是比例因子。2.2 张量生成模块作者首先给出基本定义,然后解释如何得到低秩张量。上下文分片 定义上下文片段作为张量生成模块的输出,它指一些在通道,高度和宽度维度的秩1向量,和。每个上下文片段都包含一部分上下文信息。特征生成器 定义三个特征生成器:通道生成器,高度生成器和宽度生成器。每个生成器由Pool-Conv-Sigmoid序列组成。在特征生成器中使用全局平均池化,以在C / H / W方向上获取全局上下文表示。上下文分片生成 为了学习三个维度的上下文信息片段,在输入特征的顶部应用通道,高度和宽度生成器。重复此过程r次,获得3r个可学习向量,和,其中 。所有向量均使用独立的卷积核生成。每个向量都学习一部分上下文信息,并作为上下文片段输出。TGM如图3所示。 图3TGM的非线性 添加非线性有两个原因。首先,每个重新缩放的元素都可以看作是某种上下文特征的权重,它满足了注意力的定义;其次,所有上下文片段都不应是线性相关的,以便它们中的每一个都可以代表不同的信息。2.3 张量生成模块这个部分主要介绍上下文重建与聚合的流程。整个重建过程基于公式1。首先来看上下文聚合上下文聚合 TRM的目标是获得3D注意力特征图,从而在空间和通道注意力上保持响应。上下文特征是按元素乘积获得的。给定输入特征,,,和上下文注意力特征图,,, ,细粒度的上下文特征,,,则由下式给出:其中每个表示被激活的的扩展。低秩重建 张量重建模块为了处理上下文的高秩属性。TRM分为两步:首先,三个上下文分片,合成一个秩-1子注意力特征图。(每个子注意力特征图表示一个低秩上下文信息)这个子注意力特征图表示3D上下文特征的一部分。然后,其他的上下文分片以同样的方式重建。最后使用权重均值聚合所有的子注意力特征图得到高秩张量:其中λ是可学习的正则化因子。通过公式2,3可以得到空间和通道细粒度的上下文特征。2.4 全局池化模块全局池化模块由一个全局平均池化操作和一个1x1卷积组成,旨在学习空间和通道两个维度的上下文特征。2.5 网络细节这里用ResNet作为骨干网络,在Res-4和Res-5输出的结果后使用膨胀策略,Res-5的输出特征标记为X,将TGM+TRM和GPM放到X的顶部。设置权重α为0.2,损失函数如下:最后将X与TGM+TRM和GPM生成的上下文特征和全局上下文进行连接,进行最终的预测。2.6 与之前方法的联系这部分主要与之前的non-local和它的变体相比。本文的模型主要使用一元注意力。一元注意力广泛使用在图像分类和语义分割中,两种任务的典型代表:SENet,CBAM,DFN,EncNet。SENet是RecoNet.最简单的形式,SENet的3D特征图表示如下:EncNet是SENet的升级版,也使用相同的空间权重。CBAM中引入了不同的空间权重,将公式5进行拓展: 其中是CBAM.的3D注意力特征图。虽然在CBAM考虑到了空间注意力。但是,单一的秩-1张量并不能对复杂的上下文信息进行建模。在本文中,将空间注意力使用CP分解理论变为两个秩-1张量,和。于是,就成了RecoNet的子注意力特征图。RecoNet不仅利用了一元注意力的简洁性和有效性,而且能从多个角度对特征进行表示。 3 实验 主要使用5个数据集:PASCAL-VOC12, PASCAL-Context, COCO-Stuff, ADE20K,SIFT-FLOW3.1实验设定使用pytorch框架。使用同步批正则化。学习率设定为.在PASCAL-VOC12, PASCAL-Context,COCO-Stuff上将base_lr设为0.001。ADE20K,SIFT-FLOW的base_lr分别为0.01,0.0025. power设为0.9,在SGD优化器中设置weight decay和momentum分别为0.0001和0.9.在ADE20K和COCO-Stuff分别训练120 epoch,180 epoch,其他数据集训练80epoch。所有的数据集batch_size 为16,输入图片随机裁剪为512x512.3.2 不同数据集上的结果3.3 消融研究 图5 注意力子特征图的可视化 图6 PASCAL-VOC12数据集的量化结果 4.总结 本文主要提出一个对于复杂上下文特征预测的低秩张量重建方法。它解决了之前的特征压缩的问题。亮点在于引入了CP分解理论,通过它来将低秩张量构建称高秩上下文特征,这样做可以得到空间和通道多维的信息。开发了新的语义分割框架RecoNet,该框架通过张量CP重建来探索上下文信息。它不仅保持了空间和渠道方面的注意力,而且还解决了高秩困难。◎作者档案Jack Choi,CS在读小硕个人公众号:AI算法后丹修炼炉欢迎大家联系极市小编(微信ID:fengcall19)加入极市原创作者行列 赞 (0) 相关推荐 用生成模型来做图像恢复的介绍和回顾:上下文编码器 作者:Chu-Tak Li 编译:ronghuaiyang 导读 本文给出了图像恢复的一般性框架,编解码器 + GAN,后面的图像复原基本都是这个框架. 本文会介绍图像修复的目的,它的应用,等等.然后 ... CVPR2021 DRConv:即插即用!旷视孙剑、张祥雨团队提出动态区域感知的卷积,涨点显著! ▊ 写在前面 在本文中,作者提出了一种名为动态区域感知卷积(DRConv) 的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域.标准卷积层通常是增加滤波器的数量以提取更多的视觉信息,但这 ... 三维点云语义分割总览 标题:三维点云语义分割总览 作者:吉祥街 欢迎各位加入免费知识星球,获取PDF文档,欢迎转发朋友圈,分享快乐. 希望有更多的小伙伴能够加入我们,一起开启论文阅读,相互分享的微信群.参与和分享的方式:d ... AXM-Net:用于行人检测的跨模式上下文注意力网络 重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ... 3D-MiniNet: 从点云中学习2D表示以实现快速有效的3D LIDAR语义分割(2020) 西班牙Zaragoza大学的研究人员提出的最新3D点云语义分割的深度学习方法,网络分为两大部分,提出新的滑动框搜索球形投影后的"像素点",接着使用改进的MiniNetV2网络进行分 ... (AF)平方-S3Net:稀疏语义分割网络的注意特征融合与自适应特征选择 重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ... 【DST系列】DST模型介绍 上两篇我们介绍了DST的基本概念,DST挑战,以及DST的模型分类,这一部分我们主要介绍有哪些模型能够解决DST存在的问题,以及能够解决哪些问题,不能解决哪些问题,对应的优缺点,深入理解模型设计的思想 ... MASTER:全局上下文建模大幅提高文本识别精度 该文作者信息: 作者单位为来自国内的平安产险视觉团队和徐州医科大学. 现实中出现的规则和不规则文本示例: 该文指出,目前基于注意力机制的自然场景文字识别方法在OCR领域取得了很大成果,成功的主要原因是 ... 一种基于时空图神经网络的出行时间估计解决方案 一种基于时空图神经网络的出行时间估计解决方案 用于RGB-D语义分割的全局-局部传播网络 点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为 ... 购物篮推荐场景太复杂?没有商品相关性标签?看作者运用对比学习统统解决 论文标题: The World is Binary: Contrastive Learning for Denoising Next Basket Recommendation 论文作者: Yuqi ... CVPR 2020 |基用于3D目标检测的层级图网络 论文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds 论文地址:https://www.aminer.cn/p ...