尺度归一化图像金字塔与自动聚焦的目标检测
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
作者提出了一个有效的中央凹框架来执行目标检测。生成一个尺度归一化图像金字塔(SNIP),它像人类视觉一样,只处理在不同尺度上固定大小范围内的物体。在训练过程中对目标大小的限制可以更好地学习目标敏感滤波器,从而提高精度。然而,使用图像金字塔增加了计算成本。因此,作者提出了一种有效的空间子采样方案,它只在可能包含目标的固定大小的子区域上运行(因为在训练过程中目标的位置是已知的)。由此产生的方法,被称为尺度归一化图像金字塔与有效的重新采样或狙击手,在训练期间产生高达3个加速。不幸的是,由于在推理过程中目标位置是未知的,整个图像金字塔仍然需要处理。为此,作者采用了从粗到细的方法,预测将在图像金字塔的连续尺度下处理的类对象区域的位置和范围。直觉上,这类似于作者主动的人类视觉,首先掠过视野,发现有趣的区域进行进一步处理,然后只识别出正确分辨率的物体。由此产生的算法被称为自动对焦,并在与SNIP一起使用时,在推理过程中加速2.5-5倍。
代码链接:https://github.com/mahyarnajibi/SNIPER
作者仔细研究了大规模变化下的目标检测问题,并对相关挑战及其对当前目标检测系统的不利影响提供了重要的见解。作者还讨论了当代处理尺度变化的流行做法可能存在的缺点,如特征金字塔和多尺度训练/推理。
在强调了这些缺点之后,作者建议在训练和推理过程中重新缩放所有的对象——就像人类视觉一样——以确保它们的大小范围只在一个固定的间隔内。在训练过程中对目标大小的限制可以更好地学习目标敏感滤波器,从而提高精度。然而,无论是在训练阶段还是在推理阶段,这种缩放操作都大大增加了计算成本,因为它需要处理一个多尺度图像金字塔(简称为尺度归一化图像金字塔或从现在开始的SNIP)。
为了解决训练过程中增加的计算成本,作者提出了一种有效的空间子采样方案,该方案只在可能包含目标的固定大小的子区域上运行(因为训练过程中目标的位置是已知的)。由此产生的方法,被称为尺度归一化图像金字塔与有效的重新采样或狙击,在与SNIP一起使用时,在训练阶段产生高达3倍的加速。不幸的是,在推断阶段,作者仍然需要处理整个图像金字塔,因为对象的位置是未知的。
为了解决在推理过程中的计算成本,作者建议使用一种粗到细的方法来处理图像金字塔,并预测在连续的尺度下处理的对象类区域的位置和范围。直觉上,它类似于主动的人类视觉,首先掠过视野,发现有趣的区域进行进一步处理,并只识别正确分辨率的物体。由此产生的算法被称为自动对焦,并在与SNIP一起使用时,在推理过程中加速2.5-5倍。
SNIP训练和推理显示。在每个比例尺上,超出指定范围的无效roi以紫色显示。这些在训练和推理过程中被丢弃。训练过程中的每批图像都由特定尺度的图像采样组成。无效的GT箱用于使RPN中的锚失效。使用NMS对每个尺度的检测进行缩放和组合。
该图说明了自动对焦是如何在图像中检测人和球拍的。绿色的边界和箭头用于推断原始分辨率。当在FocusChips内执行推断时,蓝色边框和箭头会显示出来。在第一次迭代中,网络检测到这个人,并生成一个热图来标记包含小物体的区域。这是在白/灰地图中描述的-它被用来生成焦点芯片。在下一次迭代中,检测器只应用于FocusChips内部。在FocusChips内部,可以检测到被裁剪的物体以更高的分辨率呈现。这样的检测被修剪,最后,有效的检测被堆叠在多个尺度上。
第一排:图像和地面真相盒子。底部一行:没有包含在正片中的否定提案(为了清晰,在每个提案的中心用红色圆圈表示)和基于这些提案生成的否定提案(用橙色矩形表示)。
在FocusStacking时进行修剪检测。(a)原始图像(b)预测的FocusPixels和生成的FocusChip (c)网络的检测输出(d)修剪后FocusChip的最终检测结果。
每一行都显示了自动聚焦中的推理管道。FocusPixels和FocusChips的置信度分别在第二列和第四列中以红色和黄色显示。检测结果用绿色表示。可以看出,包含许多小对象(如第一行)的复杂图像可以生成像1400×2000这样的高分辨率多焦点芯片。不包含小物体的图像根本不会像第二行那样在高分辨率下进行处理。
作者对流行的单尺度对象检测范式提供了批判性的见解,并强调了一些有害的限制。精心设计的实验表明,目标尺寸的大尺度变化对目标检测的训练和推理性能都有不利影响。基于人眼中央凹视觉系统的特点和尺度空间理论,提出了尺度归一化图像金字塔作为解决上述尺度变化问题的有效工具,并在多种流行的目标检测系统中展示了其有效性。此外,还提供了一些可概括的指导方针,以实现基于输入图像、网络结构和可进一步用于其他应用的感兴趣对象的尺度规范化。作者提出的对显著区域进行有效的空间和尺度空间子采样的技术可以使训练速度加快3倍,内存复杂度降低10倍,以应对尺度归一化图像金字塔带来的计算复杂度增加的问题。减少的内存复杂性还允许使用批处理规范化,这将进一步改善结果,从而在COCO基准测试上实现最先进的性能。最后,作者提出了一个主动的中央凹视觉系统,该系统以从粗到细的方式处理图像金字塔,以在更细的分辨率尺度上预测类对象区域的位置,这将加速推理3,从而在gpu上接近实时检测。
论文链接:https://arxiv.org/pdf/2102.05646.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -