自监督式特征增强在大图像目标检测中的应用

2024-05-17 11:18:30

Manuscript received July 4, 2019; revised February 15, 2020 and April 7, 2020; accepted April 29, 2020. Date of publication May 14, 2020; date of current version July 6, 2020. This work was supported in part by the National Key Research and Development Program of China under Grant 2018YFC0807500, in part by the National Natural Science Foundation of China under Grant 61832016, Grant 61672520, and Grant 61720106006, and in part by the CASIA-LLVision Joint Laboratory.

1、简介与概述

在深度卷积神经网络（CNNs）的帮助下，目标检测的性能得到了显著提高。在这些测试中，典型的图像大小为 480×640。然而，在某些应用领域，输入图像的分辨率非常高。由于限制，高分辨率图像不能作为目标检测框架的输入。为了处理上述问题，我们将输入图像降采样到小尺度。我们将高分辨率图像下采样到不同的比例，然后将图像从最小增加到对应的不同比例。通过下采样获得的图像称为高分辨率图像，而通过上采样获得的图像称为低分辨率图像。然后，我们使用上述每组图像训练深度神经网络。图 1 中的虚线显示了将高分辨率缩小图像作为输入时检测平均精度（AP）与图像大小变化的比较。实线显示了使用这些低分辨率图像作为输入的检测结果。与虚线显示的结果一致，大尺寸输入优于小尺寸或中等尺寸输入。从这些比较中，我们有以下观察结果：

·在一定范围内，随着输入大小的增加，检测网络的性能也相应提高。

·在相同的图像尺寸下，由于上/下采样过程中的信息丢失，使用下采样（高分辨率）输入训练的检测器的性能优于使用上采样（低分辨率）。

图一检测平均精度不同输入大小的比较

根据结果，我们可以大致得出结论，即在适当的范围内增加输入尺度和提高输入图像的分辨率。然而，直接增加输入规模是消耗内存的，在内存限制下是不可能实现的。因此，我们尝试向上采样特征映射，而不是直接对输入进行上采样。

本文提出了一种用于超大图像目标检测和实例分割的自监督式特征增强网络（SFANet），旨在学习图像中特征映射。我们提出了一个引导特征上采样模块，该模块以下采样图像为输入，学习图像的特征表示，并获取。为了有效的上采样，我们提出了一个卷积块，以最小的特征信息损失进行数据增强。本文的主要贡献如下：

我们首次提出在对象检测框架内系统分析尺度异质性。
我们提出了一种新的自我监督式特征增强网络 SFANet，它通过自监督学习来完成大图像目标检测任务。
我们的方法在 MVD（Mapillary Vistas Dataset）和 CityScape 方面取得了良好的结果，并在 COCO 数据集上获得了更高效率的结果。

2、不同大小的图像检测

我们定义的 Pand-Pto 分别表示对象检测管道的深层特征表示和对象检测器部分。我们在训练和测试之间使用不同大小的图像，然后将不同的图像输入给 Pand-Pto，将高分辨率信息引入到不同大小的图像中有利于提高检测性能。我们观察到，大图像的输入对于目标检测很重要。当输入尺寸大于 800×1400 时，训练的改善很小。在一定范围内，随着输入规模的增加，性能不断提高。然而，对于超大图像来说，内存不足，无法达到最佳比例。因此，我们进行了一系列的实验来验证特征上采样是否有效。

我们将目标检测管道分为两部分，即特征表示和检测头。以 Ptakes 图像为输入。我们为训练了三组数据集。这些数据之间唯一的区别是图像的大小。

我们在每组数据集上训练模型，得到了三个模型。这些模型在评估数据集上进行评估。结果列如表一所示。在第二行和第三行的结果比较表明，增加特征表示的规模确实可以提高检测性能。我们依次在训练后、训练阶段和训练开始时增加特征量表，发现越早进行上采样，性能越好。

表一不同尺寸下训练和测试时的 MVD 检测结果

3、自我监督特征增强

我们提出了一种目标检测框架 SFANet，通过自我监督的方式将高分辨率图像信息引入到框架中。我们使用 FPN-based 和 Mask R-CNN，设计了上采样模块，有效地学习大图像的特征。此外，我们使用剩余亚像素卷积块来辅助上采样。在 A 部分介绍了方法的网络结构，在 B 部分介绍引导特征上采样模块。在 C 部分，介绍了剩余亚像素卷积块。

A、网络体系结构

SFANet 的整体结构如图 2 所示。黄色虚线框中的组件为本文提出的。所提出的引导特征上采样模块位于主干网的自底向上路径之后，学习从大尺寸图像中提取的特征 C1 来引导的每一级（{C2-C5}）上采样特征。学习到的特征（{F2-F5}）被送入第二条自顶向下的路径，最后进入检测块。

图二 SFANet 的整体结构

B、引导特征上采样模块

使用特征上采样进行目标检测可以提高检测性能减少内存和计算开销。因此，我们提出了一个引导特征上采样模块。我们设计了如图 2 所示的引导特征上采样模块（用黄色虚线框标记），以有效地改进目标检测的特征表示。我们引入大尺寸图像特征作为辅助监督，通过特征上采样进行学习。

我们采用横向上采样和自顶向下上采样。自上而下的路径将特征映射迭代到 F2。这些特征通过横向上采样的自底向上路径特征得到增强。

C、剩余亚像素卷积块

我们设计了一个残存的亚像素卷积块，将自上而下和横向连接路径有效地连接到上采样特征。与反卷积层进行特征上采样的方法不同，我们的方法采用亚像素卷积层对特征地图进行上采样。图 3 详细说明了这两种方法之间的区别。

图 3 反卷积和亚像素卷积层如何进行上采样过程的比较。

（a）输入像素

（b） 3×3 卷积后输出特征图

（c）反卷积

（d）亚像素卷积是两种不同的特征上采样方式。

图 3（b）是图 3（a）与 3×3 核卷积后的结果。反卷积层（图 3（c））首先填充零（标记为灰色正方形），然后执行标准卷积。上采样要素图中的中心元素是从红色虚线框中的元素获得的，该框中只有一个元素（用蓝色填充）。与反卷积层相比，亚像素卷积层（图 3（d））首先使用 3×3×4 内核将信息嵌入到信道中，然后周期性地重新排列以生成一个放大的映射。使用图 3（b）中的所有元素计算中心区域中的每个元素。

4、实验

我们采用基于 Pytorch 的 mmdetection 开源代码来训练网络。在实验中对于每个图像，我们采样 512 个 RoIs，默认的正色调负比为 1:3。权重衰减设置为 00001。实验在三个数据集上进行，分别是 MVD、Cityscapes 和 COCO。

MVD 实验

（一）数据集和指标：MVD 是一种新的街道级图像数据集，在天气和照明条件以及捕捉传感器特征方面具有多样性。该数据集包含大约 25k 个高分辨率图像。平均短边约为 2500 像素。

（二）主要结果：图 5 中的验证子集上展示了我们方法的语义分段结果。

图四基于 MVD-val 子集的 SFANet 语义分割结果

Cityscapes 实验

（一）数据集和指标：Cityscapes 是另一个流行的数据集，包含车载摄像头拍摄的街道场景，图像大小为 1024×2048。总共有 2975 个训练图像，500 个验证图像和 1525 个带有精细注释的测试图像。另一个 20k 图像具有粗略的注释。

（二）结果和性能：我们使用从[800×1024]随机抽样的图像尺度（短边）进行训练。结果显示，我们的方法优于所有其他方法。我们将我们提出的模型与其他基于 FPN 的方法相结合，进一步验证了我们方法的有效性。

COCO 实验

1）数据集和指标：COCO 数据集是实例分割和对象检测中最具挑战性和最受欢迎的数据集之一。它包含 115k 个用于培训的图像和 5k 个用于验证的图像。

2）结果和性能：我们将所有其他方法的输入尺度设置为 800，并使用从[400×800]随机抽样的尺度来验证所提出的自我监督特征增强。结果表明，我们的方法能够以较高的效率获得可比的结果。

5、结论

本文研究了目标检测流中图像尺寸的影响，提出了一种主要面向超大图像的 SFANet。从上采样特征和引入高分辨率图像信息的角度，设计了引导特征上采样模块。该模块通过使用所提出的残存亚像素卷积块来提升特征，并通过添加引导特征丢失分支引入高分辨率信息。特征上采样模块的目的是在大特征的监督下，以较小的网络输入学习与大图像匹配的实体特征。我们在 MVD 和城市景观上进行了多个实验，以证明该管道的有效性。

本论文由 iSE 实验室 2019 级硕士生徐彬桐转述。

GitHub热榜：一张照片实现高清3D人体建模，Demo可玩

手动对人体进行3D建模并非易事. 但现在,只给AI一张高清照片,它还真就能分分钟搞定这件事. 甚至还挺高清,衣服褶皱.面部表情,细节一点不少. 这项新研究来自南加州大学和Facebook,中选CVPR ...
自动驾驶中实时车道检测和警报

点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达车道检测模型简介未来十年,自动驾驶将彻底改变人们的出行方式.目 ...
基于相机和低分辨率激光雷达的三维车辆检测

标题:3D Vehicle Detection Using Camera and Low-Resolution LiDAR Zhang, Rui Huang, Le Cui, Siyu Zhu, an ...
【计算摄影】图像与视频超分辨，深度学习核心技术与展望

大家好,这是专栏<计算摄影>的第七篇文章,这一个专栏来自于计算机科学与摄影艺术的交叉学科. 作者&编辑 | 言有三图像超分,就是要将低分辨率的图像恢复为高分辨率的图像,它在日常的 ...
2020 图像超分最新综述及上采样技术一览

作者丨科技猛兽编辑丨极市平台极市导读本文对超分网络的数据集,常用的4种框架,上采样的方法,训练策略等进行了综述,同时详细解读了如何在多个金字塔级别上逐步重建高分辨率图像以及如何同时设计渐进式的超 ...
SFANet：一种用于可见光-红外人再识别的频谱感知特征增强网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
【博文连载】边缘检测算法介绍

所谓边缘是指其周围像素灰度急剧变化的那些象素的集合,它是图像最基本的特征.边缘存在于目标.背景和区域之间,所以,它是图像分割所依赖的最重要的依据.由于边缘是位置的标志,对灰度的变化不敏感,,因此,边缘 ...
採气3式完整演示，大补身体，雪山山顶穿短袖效果展示，健康体魄

採气3式完整演示，大补身体，雪山山顶穿短袖效果展示，健康体魄
耳朵上出现这些特征，是大病的征兆！

数万美容养生行业人关注的平台,分享保养知识,分享健康,分享养生.分享信息.分享美丽:传播正能量,与健康同在,和美丽同行!!!! 美业人参阅专属美业人,学习交流平台中医认为,耳廓较长.耳垂丰满, ...
底部k线特征：前大后小孕出线（图解）

前大后小孕出线,也是两根K线构成的组合形态,是与怀抱线组合形态正好相反的一种K组合,是另外一种较为常见的底部特征的K线组合形态.孕出线是指后一根K线的交易区间在前一根K线的交易区间之内,被前一根K线完 ...
99种广式粤菜酱汁大公开

本文素材来自网络,如有侵权请联系删除啤酒汁用料:啤酒1500克.鱼露50克.白酱油50克.葡萄酒100克.冰糖10克.香芋10克.味精10克.胡椒粉3克菜式:啤酒浸乳鸽.啤酒牛柳.啤酒鸡红花汁 ...
名厨透露：粤式炖汤九大核心技术！

无论什么季节,在世界的哪个角落,只要你走进粤菜馆,一定会被品种多样.清香十足.又带有养生功效的粤式炖汤而吸引.一家粤菜餐厅的出品好坏,炖汤是否出色,所占的比重相当大. 本期粤式炖汤专题,由广东省厨委会 ...
【最佳执行‮式模‬的九大步骤】‎͏ ...

[最佳执行‮式模‬的九大步骤]‎͏ 1.谁来做? 2.做到什‮成么‬果? 3.什么‮间时‬做到? 4.用‮么什‬措施做到? 5.谁负责检查? 6.有什‮补么‬充措施? 7.如何有‮的力‬奖惩? 8 ...
中药学：特征“要药”大集合

今天整理出各种有特征的"要药"大集合~ 麻黄:为发汗解表的要药.为用于肺气壅遏喘咳的要药. 白芷:为治疗阳明头痛的要药. 辛夷:为治疗鼻渊的要药. 柴胡:为治疗少阳证的要药,为治 ...
【Gif动图】在下犬式如何外旋大臂？这个技巧很重要！

来源:瑜伽视频精选(ID:YogaVideo) 练习瑜伽的时候,发现很多伽人容易肩膀向前旋转有没有!?特别是当双手撑地的时候,肩膀前旋,如果是支撑体式,很容易给肩膀带来压力,让肩膀越来越紧,前三角肌和 ...
郭颖Yamy和徐明朝的嘴仗式纠纷，最后大几率是多败俱伤，没有赢家

就目前的双方舆论态势看,Yamy(郭颖)和徐明朝两人的论战焦点不在同一个维度,一个讲情,一个说理,没办法对话: Yamy首先站在道德制高点讨伐公司对自己的形象侮辱,和公司高层会议在背后的小动作,这样做 ...

自监督式特征增强在大图像目标检测中的应用

1、 简介与概述

2、 不同大小的图像检测

3、 自我监督特征增强

4、 实验