尺度归一化图像金字塔与自动聚焦的目标检测

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

作者提出了一个有效的中央凹框架来执行目标检测。生成一个尺度归一化图像金字塔(SNIP),它像人类视觉一样,只处理在不同尺度上固定大小范围内的物体。在训练过程中对目标大小的限制可以更好地学习目标敏感滤波器,从而提高精度。然而,使用图像金字塔增加了计算成本。因此,作者提出了一种有效的空间子采样方案,它只在可能包含目标的固定大小的子区域上运行(因为在训练过程中目标的位置是已知的)。由此产生的方法,被称为尺度归一化图像金字塔与有效的重新采样或狙击手,在训练期间产生高达3个加速。不幸的是,由于在推理过程中目标位置是未知的,整个图像金字塔仍然需要处理。为此,作者采用了从粗到细的方法,预测将在图像金字塔的连续尺度下处理的类对象区域的位置和范围。直觉上,这类似于作者主动的人类视觉,首先掠过视野,发现有趣的区域进行进一步处理,然后只识别出正确分辨率的物体。由此产生的算法被称为自动对焦,并在与SNIP一起使用时,在推理过程中加速2.5-5倍。

代码链接:https://github.com/mahyarnajibi/SNIPER

论文创新点
  • 作者仔细研究了大规模变化下的目标检测问题,并对相关挑战及其对当前目标检测系统的不利影响提供了重要的见解。作者还讨论了当代处理尺度变化的流行做法可能存在的缺点,如特征金字塔和多尺度训练/推理。

  • 在强调了这些缺点之后,作者建议在训练和推理过程中重新缩放所有的对象——就像人类视觉一样——以确保它们的大小范围只在一个固定的间隔内。在训练过程中对目标大小的限制可以更好地学习目标敏感滤波器,从而提高精度。然而,无论是在训练阶段还是在推理阶段,这种缩放操作都大大增加了计算成本,因为它需要处理一个多尺度图像金字塔(简称为尺度归一化图像金字塔或从现在开始的SNIP)。

  • 为了解决训练过程中增加的计算成本,作者提出了一种有效的空间子采样方案,该方案只在可能包含目标的固定大小的子区域上运行(因为训练过程中目标的位置是已知的)。由此产生的方法,被称为尺度归一化图像金字塔与有效的重新采样或狙击,在与SNIP一起使用时,在训练阶段产生高达3倍的加速。不幸的是,在推断阶段,作者仍然需要处理整个图像金字塔,因为对象的位置是未知的。

  • 为了解决在推理过程中的计算成本,作者建议使用一种粗到细的方法来处理图像金字塔,并预测在连续的尺度下处理的对象类区域的位置和范围。直觉上,它类似于主动的人类视觉,首先掠过视野,发现有趣的区域进行进一步处理,并只识别正确分辨率的物体。由此产生的算法被称为自动对焦,并在与SNIP一起使用时,在推理过程中加速2.5-5倍。

框架结构

SNIP训练和推理显示。在每个比例尺上,超出指定范围的无效roi以紫色显示。这些在训练和推理过程中被丢弃。训练过程中的每批图像都由特定尺度的图像采样组成。无效的GT箱用于使RPN中的锚失效。使用NMS对每个尺度的检测进行缩放和组合。

该图说明了自动对焦是如何在图像中检测人和球拍的。绿色的边界和箭头用于推断原始分辨率。当在FocusChips内执行推断时,蓝色边框和箭头会显示出来。在第一次迭代中,网络检测到这个人,并生成一个热图来标记包含小物体的区域。这是在白/灰地图中描述的-它被用来生成焦点芯片。在下一次迭代中,检测器只应用于FocusChips内部。在FocusChips内部,可以检测到被裁剪的物体以更高的分辨率呈现。这样的检测被修剪,最后,有效的检测被堆叠在多个尺度上。

实验结果

第一排:图像和地面真相盒子。底部一行:没有包含在正片中的否定提案(为了清晰,在每个提案的中心用红色圆圈表示)和基于这些提案生成的否定提案(用橙色矩形表示)。

在FocusStacking时进行修剪检测。(a)原始图像(b)预测的FocusPixels和生成的FocusChip (c)网络的检测输出(d)修剪后FocusChip的最终检测结果。

每一行都显示了自动聚焦中的推理管道。FocusPixels和FocusChips的置信度分别在第二列和第四列中以红色和黄色显示。检测结果用绿色表示。可以看出,包含许多小对象(如第一行)的复杂图像可以生成像1400×2000这样的高分辨率多焦点芯片。不包含小物体的图像根本不会像第二行那样在高分辨率下进行处理。

结论

作者对流行的单尺度对象检测范式提供了批判性的见解,并强调了一些有害的限制。精心设计的实验表明,目标尺寸的大尺度变化对目标检测的训练和推理性能都有不利影响。基于人眼中央凹视觉系统的特点和尺度空间理论,提出了尺度归一化图像金字塔作为解决上述尺度变化问题的有效工具,并在多种流行的目标检测系统中展示了其有效性。此外,还提供了一些可概括的指导方针,以实现基于输入图像、网络结构和可进一步用于其他应用的感兴趣对象的尺度规范化。作者提出的对显著区域进行有效的空间和尺度空间子采样的技术可以使训练速度加快3倍,内存复杂度降低10倍,以应对尺度归一化图像金字塔带来的计算复杂度增加的问题。减少的内存复杂性还允许使用批处理规范化,这将进一步改善结果,从而在COCO基准测试上实现最先进的性能。最后,作者提出了一个主动的中央凹视觉系统,该系统以从粗到细的方式处理图像金字塔,以在更细的分辨率尺度上预测类对象区域的位置,这将加速推理3,从而在gpu上接近实时检测。

论文链接:https://arxiv.org/pdf/2102.05646.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

(0)

相关推荐

  • 无需检测器提取特征!LeCun团队提出MDETR:实现真正的端到端多模态推理|ICCV 2021 Oral

    作者丨小马 编辑丨极市平台 极市导读 本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态 ...

  • ECCV2020|基于关键点的单目3D目标检测

    论文原文:RTM3D:Real-timeMonocular3DDetectionfromObject KeypointsforAutonomousDriving 论文地址: https://www.a ...

  • 在目标检测中如何解决小目标的问题?

    机器学习与生成对抗网络 记录分享通俗.有趣的AI科技知识,包括不限于CV.GAN等等,还有程序员求职面试.内推等资料,偶尔分享诗词歌赋.陶冶情操,一起做个有趣.前沿的人! 94篇原创内容 公众号 作者 ...

  • 图像处理之目标检测入门总结

    重磅干货,第一时间送达 本文首先介绍目标检测的任务,然后介绍主流的目标检测算法或框架,重点为Faster R-CNN,SSD,YOLO三个检测框架.本文内容主要整理自网络博客,用于普及性了解.ps:由 ...

  • 2021年小目标检测最新研究综述

    作者丨高新波.莫梦竟成.汪海涛.冷佳旭  编辑丨极市平台 极市导读 与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行了系 ...

  • 深度学习

    人工智能技术与咨询 4天前 本文来自<系统工程与电子技术>,作者周龙等 摘 要:针对传统雷达图像目标检测方法在海杂波及多种干扰物组成的复杂背景下目标分类识别率低.虚警率高的问题,提出将当前 ...

  • 2020首届海洋目标智能感知国际挑战赛 冠军方案分享

    重磅干货,第一时间送达 本文转载自:网络人工智能园地 作者:欧奕旻.左育莘.杨锐 赛事回顾 2020年12月22日由中国造船工程学会等单位主办,哈尔滨工程大学承办,武汉理工大学协办的首届"海 ...

  • 一起来学SLAM之ORB特征点

    角点的定义 角点是一种局部特征,具有旋转不变性和不随光照条件变化而变化的特点,一般将图像中曲率足够高或者曲率变化明显的点作为角点.检测得到的角点特征通常用于图像匹配.目标跟踪.运动估计等方面. 目前的 ...

  • FoveaBox,超越Anchor-Based的检测器

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  • 三分支网络——目前目标检测性能最佳网络框架

    尺度变化是目标检测中的关键挑战之一.今天要说的这个技术就特别厉害,在目标检测领域中,目前是性能最强的一个框架.下面让我们一起去见证下它的优势所在. 本次介绍的算法框架: Scale-Aware Tri ...