三分支网络——目前目标检测性能最佳网络框架

2024-07-31 20:22:22

尺度变化是目标检测中的关键挑战之一。今天要说的这个技术就特别厉害，在目标检测领域中，目前是性能最强的一个框架。下面让我们一起去见证下它的优势所在。

本次介绍的算法框架：

Scale-Aware Trident Networks for Object Detection

下载地址：https://arxiv.org/abs/1901.01892

在该网络框架中，首先进行了一个控制实验，以研究感受野对不同尺度目标检测的影响。根据勘探实验的结果，提出了一种新的三分支网络(Triddnet)，该网络的目标是生成具有均匀代表性的标度特征图。

等下~今天主角是Trident Network，但是其是借鉴了CVPR一篇文章中的Multi-Scale思想，所以接下来我还是有必要带大家了解下那片高质量文章及其框架，那就是——SNIP。那我们开始梳理下SNIP是如何目标检测的。

论文链接：https://arxiv.org/abs/1711.08189

这个框架研究点是目标检测中的小目标的问题。小目标检测一直是目标检测中的难题，如果自己实践过的小伙伴应该都知道，数据集中small类的AP基本都是最低的，主要原因如下：

从上图可以看到，COCO数据集中90%的样本例子的大小都在0.472以下，和ImageNet差别非常大。

说明了类似COCO这样的数据集中存在着大量的小物体；
也说明了ImageNet预训练的模型在迁移到样本大小差异较大的COCO数据集中，很可能产生一定的domain-shift偏差。

于是，就由生了这样的动机：

实际上，现在有很多针对小目标的措施和改良，如下：

最常见的是Upsample来Rezie网络输入图像的大小；
用dilated/strous等这类特殊的卷积来提高检测器对分辨率的敏感度；
用FPN这种把浅层特征和深层特征融合的，或者最后在预测的时候，用浅层特征和深层特征一起预测；
有比较直接的在浅层和深层的Feature Map上直接各自独立做预测的，这个就是我们常说的尺度问题。

主要思路：

在训练和反向传播更新参数时，只考虑哪些在指定的尺度范围内的目标，由此提出了一种特别的多尺度训练方法，即SNIP（Scale Normalization for Image Pyramids）。

如上图所示，在训练时划分了三类尺度，对应三种不同分辨率的图像。每个分辨率下的RoI都有其指定范围，如果GT的box大小在这个范围内，就被标记做valid，否则就被标记为invalid。

在生成Anchor并给Anchor分配label的时候，检查该Anchor是否和某个invalid GT box的overlap超过0.3，若存在，则该Anchor会被视作invalid Anchor；若不存在，则会被视作valid Anchor。

这些invalie anchor在train的时候都会被无效化，也不会加入到反向传播的过程中从而对参数产生影响，相当于在每个分辨率上，只对大小合适的目标进行训练，这就符合了该网络框架设计的初衷。相应的，在inference时候，如果区域面积在那个分辨率的指定范围外，也同样会被抛弃，最后，在进行Rescale和NMS等操作。

仔细阅读后，你会发现该框架考虑了很多细节元素：

用的是Deformable RFCN detector，而不是常见的卷积，根据自己的需要作出一定的改变；
网络结构是Dual path networks（DPN）和ResNet-101，由于需要内存很大，为了适应GPU内存，对图像进行了采样，具体方法是选取一个1000x1000的包含最多目标的区域作为子图像，然后重复该步骤直到所有目标都被选取；
为了提升RPN的效果，尝试了使用7个尺度，连接conv4和conv5的输出；
从功能上来讲，对每一层金字塔图像，分别检测不同尺寸的目标，金字塔图像越大，检测的目标尺寸越小；
从网络结构上来讲，3个分支进行参数共享，故网络结构完全一致，区别在于目标尺寸的超参数不同。

实验结果

MS表示multi-scale

今天貌似讲多了，那我们下期认真讲解Trident Network,大家记得关注哦！

点一下好看再走吧

MS-DAYOLO来了！多尺度域自适应的YOLO，恶劣天气也看得见！

转载自:集智书童 Multiscale Domain Adaptive YOLO for Cross-Domain Object Detection 论文:https://arxiv.org/abs/ ...
FoveaBox，超越Anchor-Based的检测器

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
【目标检测算法解读】yolo系列算法三

前言本文是yolo系列算法文章的第三篇,也是目前为止yolo系列算法的最终篇.从原理上看,yolov3并没有实质性的创新,主要是借鉴了一些时下state-of-the-art模型的优秀思想.本文重点 ...
在目标检测中如何解决小目标的问题？

机器学习与生成对抗网络记录分享通俗.有趣的AI科技知识,包括不限于CV.GAN等等,还有程序员求职面试.内推等资料,偶尔分享诗词歌赋.陶冶情操,一起做个有趣.前沿的人! 94篇原创内容公众号作者 ...
目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

计算机视觉研究院专栏作者:Edison_G 近年来,在利用深度卷积网络检测目标方面取得了显著进展.然而,很少有目标检测器实现高精度和低计算成本. 公众号ID|ComputerVisionGzq 学习 ...
2020首届海洋目标智能感知国际挑战赛冠军方案分享

重磅干货,第一时间送达本文转载自:网络人工智能园地作者:欧奕旻.左育莘.杨锐赛事回顾 2020年12月22日由中国造船工程学会等单位主办,哈尔滨工程大学承办,武汉理工大学协办的首届"海 ...
尺度归一化图像金字塔与自动聚焦的目标检测

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
吊打一切现有版本的YOLO！旷视重磅开源YOLOX：新一代目标检测性能速度担当！

作者丨happy 编辑丨极市平台极市导读 YOLO系列终于又回到了Anchor-free的怀抱,不用费劲心思去设计anchor了!旷视开源新的高性能检测器YOLOX,本文将近两年来目标检测领域的各个 ...
大盘点 | 2020年5篇目标检测算法最佳综述

作者丨Cynthia Yawain 编辑丨极市平台本文为极市平台原创整理. 引言在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与进步.去年上半年,极市曾盘点过计算机 ...
ECCV18 | 如何正确使用样本扩充改进目标检测性能（附Github地址）

在大多数视觉任务中,对图像进行颜色改变或是增加随机噪声等这些通用数据增广操作,都会改进模型预测能力,但如果能利用特定任务的先验知识则往往会获得更大的性能改进.比如在目标检测的任务中,将目标的图像随机复 ...
RODNet：实时雷达目标检测网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
ICCV2021｜性能优于何恺明团队MoCo v2，DetCo：为目标检测定制任务的对比学习

作者丨小马编辑丨极市平台极市导读作者专为目标检测任务"量身定制"了对比学习框架DetCo,在PASCAL VOC数据集上,DetCo在100个epoch时的性能就与MoCo ...
重磅开源！目标检测新网络DetectoRS：54.7 AP，特征金字塔与空洞卷积的完美结合

加入极市专业CV交流群,与 10000+来自港科大.北大.清华.中科院.CMU.腾讯.百度等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注 ...
RefineDetLite：腾讯提出轻量级高精度目标检测网络

前几天腾讯公布了一篇论文RefineDetLite: A Lightweight One-stage Object Detection Framework for CPU-only Devices,提 ...
CVPR 2020 |基用于3D目标检测的层级图网络

论文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds 论文地址:https://www.aminer.cn/p ...

三分支网络——目前目标检测性能最佳网络框架

相关推荐