目标检测算法21篇速览：检测网络优化及改进

2024-06-09 14:39:39

作者丨SDC

来源丨GiantPandaCV

编辑丨极市平台

极市导读

本文总结了21篇目标检测算法方面的论文，包括对已有的两种检测网络设计范式的调整和优化，在检测网络中添加注意力模块的方式和方法以及关于anchor从多个框压缩为点的可能性等。>>加入极市CV技术交流群，走在计算机视觉的最前沿

导读

检测网络模型发展到16年已经基本形成了一段式和两段式的两种网络设计模式，两者的共同点是均采用了anchor based的设计结构来达到对输入特征图遍历的效果。但是反映出来的现象是两段式网络的精度更高，一段式网络速度更快，两者都对待检测目标的尺度适应能力存在一定的瓶颈，那么如何继续提高特征表达来增强网络性能呢？基于anchor的思路也引入了相对较多的超参数，如何继续简化超参数的数量呢？本章我们将沿着这个问题进行2016年到2018年论文的速览。

第一篇 MS-CNN

《A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection》

提出时间：2016

针对问题：

多尺度目标的检测问题仍旧是检测任务的一个重点问题，既然已经有学者考虑了在网络的不同层上完成对不同尺度的目标检测任务，那么具体怎么运用多层的特征呢，本文作者的思路是对不同的输出层设计不同尺度的目标检测器。

创新点：

对于不同的输出层设计不同尺度的目标检测器，完成多尺度下的检测问题，使用特征的上采样代替输入图像的上采样步骤。设计一个去卷积层，来增加特征图的分辨率，使得小目标依然可以被检测出来。这里使用了特征图的deconvolutional layer（反卷积层）来代替input图像的上采样，可以大大减少内存占用，提高速度。

详解博客：https://blog.csdn.net/app_12062011/article/details/77945816

第二篇 R-FCN

《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

提出时间：2016

针对问题：

分类网络对输入特征图中目标的位置信息是不敏感的，而检测网络即需要对目标的位置敏感，还需要保证足够的分类精度。如何解决或者平衡这个矛盾？按我们的理解来说就是，对分类网络来说输入的特征图，目标在图上的不同位置其损失差别不大，但是对检测网络来说，就需要考虑定位的损失，定位的损失再经过回传，会改变网络的权重参数，从而可能对分类的性能产生影响。

创新点：

主要贡献在于解决了“分类网络的位置不敏感性（translation-invariance in image classification）”与“检测网络的位置敏感性（translation-variance in object detection）”之间的矛盾，在提升精度的同时利用“位置敏感得分图（position-sensitive score maps）”提升了检测速度。具体就是把每个目标输出为k_k_(c+1)的特征向量，k*k每一层表征当前目标的上，下左右等细分位置的heatmap图。

详解博客：https://zhuanlan.zhihu.com/p/30867916

第三篇 PVANET

《PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection》

提出时间：2016年

针对问题：

本篇论文继续在faster rcnn网络上深耕，综合之前提出的多层特征融合、浅层特征计算冗余和inception结构来改善faster rcnn网络的性能。

创新点：

改进了faster rcnn的基础特征提取网络，在不影响精度的前提下加速。主要是三个点：1）C.RELU，C.ReLU(x)=[ReLU(x), ReLU(-x)],认为浅层卷积核的一半计算都是冗余的。2）Inception结构的引入。3）多层特征的融合。以尽可能的利用细节和抽象特征。

详解博客：https://blog.csdn.net/u014380165/article/details/79502113

第四篇 DSSD

《DSSD : Deconvolutional Single Shot Detector》

提出时间：2017

针对问题：

继续在SSD的基础上尝试提高对小目标的检测能力。

创新点：

在网络中添加了反卷积的结构，并通过在backbone中使用resnet结构来提高浅层特征的表达能力。

详解博客：https://blog.csdn.net/u010725283/article/details/79115477/

第五篇 YOLOv2/YOLO9000

《YOLO9000:Better, Faster, Stronger》

提出时间：2017年

针对问题：

对yolov1进行改进，借鉴了anchor、多特征层融合检测等网络改进技巧，在保证检测速度的前提下，提高了yolo系列的检测精度。

创新点：

在v1的基础上，用anchor来强化grid，提高输入的分辨率，用BN替代dropout，约束anchor的中心点变动区间，新的backbone

详解博客：https://blog.csdn.net/shanlepu6038/article/details/84778770

第六篇 FPN

《Feature Pyramid Networks for Object Detection》

提出时间：2017年

针对问题：

本篇论文的作者尝试通过增强CNN主干网络输出的特征来进一步增强网络的检测精度。

创新点：CNN目标检测网络开始尝试利用多层特征融合来进行大目标+小目标的检测，本篇主要是提出新的跳层特征融合及用作分类的方式。FPN网络的提出也成为后续检测的主干网络常用结构。

详解博客：https://blog.csdn.net/kk123k/article/details/86566954

第七篇《RON: Reverse Connection with Objectness Prior Networks for Object Detection》

提出时间：2017年

针对问题：

对一段式网络模型的训练精度问题进行优化，作者发现一段式网络在训练时相对两段式网络正负样本不均衡程度更大且没有有效的抑制手段。不均衡的正负样本会不利于网络模型收敛。

创新点：

为了优化one-stage目标检测算法的正负样本不均匀的问题，添加了objectness prior层来筛选正负样本，并采用了和FPN类似的特征融合思路，使得浅层特征的表现能力得到了提高。

详解博客：https://blog.csdn.net/shanlepu6038/article/details/84778770

第八篇《DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling》

提出时间：2017年

针对问题：

本文作者注意到，当前的检测网络模型都应用了anchor来完成对特征图的近似遍历，其中的anchor超参数的设置也很重要。作者尝试继续简化anchor的超参数，即将基于一定长宽anchor组合的检测算法，取anchor的极限，通过预测图像中目标的角点来完成对图像中目标的定位。

创新点：

之前的two stage 和 one stage都是基于anchor来实现目标建议框的选取，这是第一篇，尝试在anchor盛行的时候，不手工设置anchor，而是利用目标角点检测来实现目标位置检测的方案。

详解博客：https://blog.csdn.net/yaoqi_isee/article/details/70184686;https://www.cnblogs.com/fourmi/p/10771589.html

第九篇《CoupleNet: Coupling Global Structure with Local Parts for Object Detection》

提出时间：2017年

针对问题：

本文是对R-FCN的一个改进。作者观察到R-FCN中，对输入特征图直接映射为目标的不同组件的，对纹理较少的目标，比如沙发，就可能定位误差偏大。所以作者考虑在R-FCN中加上全局信息。

创新点：

在R-FCN中加上了对全局信息的提取，因为R-FCN是直接将共享的Feature Map 映射为了每类目标的各个组件，而对沙发这种单独结构文理很少的，更需要目标的全局信息，ROI Pooling则保留了类似的信息，所以两者合一一起用。

详解博客：https://blog.csdn.net/qq_34564947/article/details/77462819

第十篇《Focal Loss for Dense Object Detection》

提出时间：2017年

针对问题：

如第七篇论文的工作，在网络模型训练的过程中，正负样本的不平衡是影响模型精度的重要因素。第七篇采用的的策略和两段式网络相似，都是通过筛选生成的目标框是否包含正样本来过滤。本文作者则从损失函数的角度，通过设计的Focal Loss降低重复的简单样本对模型权重的影响，强调难例对网络学习的益处，以此来提高模型权重收敛的方向，使其达到更高精度。

创新点：

定义新的损失函数Focal loss来使得难训练的样本对loss贡献大，从而一定程度优化训练样本类别不均衡的问题。

详解博客：https://www.bilibili.com/read/cv2172717

第十一篇《DSOD: Learning Deeply Supervised Object Detectors from Scratch》

提出时间：2017年

针对问题：

本文作者认为当前的检测模型大部分都是以大数据集训练得到的分类模型为骨干网络，再将其迁移到当前数据集的检测任务上，虽然分类和检测可以共用特征，但是检测直接从头训练的模型和分类网络训练出来的模型参数还是有区别的。所以作者尝试提供一种从头有监督的训练检测网络模型的方案。

创新点：

摆脱预训练模型，从头训练自己的模型，从而摆脱结构依赖。

详解博客：https://arleyzhang.github.io/articles/c0b67e9a/

第十二篇《MASK R-CNN》

提出时间：2017年

针对问题：

作者尝试从采用分割网络的思路来实现检测的任务，也就是对每个像素点判断其类别，再通过不同实例来确定其最小外接矩形框从而达到检测的目的。

创新点：

主要是ROI align技术，也就是不进行截断，而是差值方式的ROI POOLING 。

详解博客：https://blog.csdn.net/WZZ18191171661/article/details/79453780

第十三篇《Deformable Convolutional Networks》

提出时间：2017年

针对问题：

作者认为卷积神经网络由于其构建模块中的固定几何结构而固有地仅限于模型几何转换，即因为卷积核是固定的形状，无法自适应的对输入特征图上的特征进行有效的提取。所以作者设计了可变形的卷积层和池化层。

创新点：

可变形卷积，通过借鉴空洞卷积实现，通过单独的层学习采样点位置；可变形roi，roi pooling里面的每个bin都可以有一个offset来进行平移。

详解博客：https://zhuanlan.zhihu.com/p/52476083

第十四篇《YOLOv3》

提出时间：2018年

针对问题：

主要是作者对yolov2网络的持续优化和改进。

创新点：

主要是借鉴FPN和resnet来提高主干网络的特征层表征能力。

详解博客：https://blog.csdn.net/dz4543/article/details/90049377

第十五篇《Scale-Transferrable Object Detection》

提出时间：2018年

针对问题：

作者认为类似原始FPN中的特征的融合并不能够很好的增强特征的表达能力，所以设计了新的融合方式来强化这部分。

创新点：

提出了一种新的在几乎不增加参数和计算量前提下得到大尺寸featuremap的方法，首先将输入feature map在channel维度上按照r^2长度进行划分，也就是划分成C个，每个通道长度为r^2的feature map，然后将每个1_1_r^2区域转换成r_r维度作为输出feature map上r_r大小的结果，最后得到rH_rW_C的feature map。

详解博客：https://blog.csdn.net/u014380165/article/details/80602130

第十六篇《Single-Shot Refinement Neural Network for Object Detection》

提出时间：2018年

针对问题：

作者观察到两段式网络有较好的精度表现，而一段式网络有更优秀的速度性能，作者尝试结合两者的特点来构建新的网络结构。

创新点：

TCB，ARM与ODM模块的提出。

详解博客：https://blog.csdn.net/woduitaodong2698/article/details/85258458?utm_medium=distribute.pc_relevant_right.none-task-blog-BlogCommendFromMachineLearnPai2-5.nonecase&depth_1-utm_source=distribute.pc_relevant_right.none-task-blog-BlogCommendFromMachineLearnPai2-5.nonecase

第十七篇《Relation Networks for Object Detection》

提出时间：2018年

针对问题：

大家都有感觉，物体间或者物体内一些区域的关联性是有助于目标检测任务的，但是之前没人有实际的证明如何使用这种关联性是一定可行的，本文作者就尝试在检测网络中添加注意力模块来提高网络表现。

创新点：

计算object之间的relation，作为训练参数，从而提高检测精度。

详解博客：https://blog.csdn.net/weixin_42102248/article/details/102858695

第十八篇《Cascade R-CNN: Delving into High Quality Object Detection》

提出时间：2018年

针对问题：

本文也是对网络训练过程中的优化技巧，作者发现训练检测网络时候需要设置超参数IOU阈值来判断当前定位框是否为正样本，但是一个单一的IOU阈值可能并不是合用的，所以尝试做级联的IOU阈值来辅助训练。

创新点：

为了优化RPN中的单一IOU问题对最终检测精度的影响问题而提出，做不同IOU阈值的级联来提高计算最终损失的正负样本质量及比例，从而提高性能。

详解博客：https://blog.csdn.net/qq_17272679/article/details/81260841

第十九篇《Receptive Field Block Net for Accurate and Fast Object Detection》

提出时间：2018年

针对问题：

本文作者的工作也是对主干网络的不同层特征融合工作的优化进行的。主要是为了更有效且更高效的实现特征的融合。

创新点：

提出RFB结构，利用空窗卷积来进行特征的融合。

详解博客：https://blog.csdn.net/u014380165/article/details/81556769

第二十篇《Object Detection based on Region Decomposition and Assembly》

提出时间：2019年

针对问题：

本文作者还是针对两段式网络中目标框提取部分进行优化，来提高检测精度。

创新点：

思路还是借鉴之前的论文，对正样本图像块进行拆分左右上下半边和其本身，再分别送入后续卷积，目的是让网络尽可能多的看到当前正样本的丰富的特征。

详解博客：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/88148760

第二十一篇《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network》

提出时间：2019年

针对问题：

作者认为FPN的特征金字塔最开始就是为了分类而设计的，在检测网络中需要进行一定的适配才能达到最好的性能。

创新点：

原始的backbone更适合分类任务，改善backbone的使用机制，使其更适应检测任务。两个新模块1）TUM 通过卷积、上采样和相同shape相加来得到多尺度的特征2）FFMv2 特征融合模块，通过卷积核upsample来统一输入feature map的shape，再concat 3）SFAM 对输入的特征先concat，再进行通道层面的attention，并转化为权重参数相乘，再送入分类和回归。

详解博客：https://blog.csdn.net/hanjiangxue_wei/article/details/103311395

本章总结

到本章以后，所提到的21篇论文大部分都是对已有的两种检测网络设计范式的调整和优化，学者们探索了多层特征的融合并最终推出了FPN，并在FPN基础上对检测问题进行适配；学者们还探索了在检测网络中添加注意力模块的方式和方法，并证明其有效。我们还要注意到第八篇和第十三篇论文，其中第八篇讨论了anchor从多个框压缩为点的可能性，第十三篇则探讨了，可能纯卷积的结构并不是检测问题的最优选项，这个方向仍旧有优化的可能。

成功解决TypeError: __init__() got an unexpected keyword argument 'serialized_options'

成功解决TypeError: __init__() got an unexpected keyword argument 'serialized_options' 解决问题 TypeError: __ ...
卷积神经网络中感受野的详细介绍

目录: 感受野的概念感受野的例子感受野的计算计算VGG16网络每层的感受野 Reference 1. 感受野的概念在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络 ...
视频中的目标检测与图像中的目标检测具体有什么区别？

编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:Naiyan Wang 抽空来简答一下这个问题,恰好也是我们比较关注的一个方向. 简单来说,视频检测是比单张图片检测多了Temporal C ...
UP-DETR：收敛更快！精度更高！华南理工&微信开源无监督预训练目标检测模型

0 写在前面基于Transformer编码器-解码器结构的DETR达到了与Faster R-CNN类似的性能.受预训练Transformer在自然语言处理方面取得巨大成功的启发,作者提出了一种基于r ...
DL之Yolo：Yolo算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之Yolo:Yolo算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略相关文章 CV:人工智能之计算机视觉方向的简介(常用数据集+CV职位).传统方法对比CNN类算法.计算机视觉八大 ...
视频目标检测：Flow-based

作者简介陀飞轮:复旦大学研究生在读,研究方向是目标检测.分割.跟踪将图像目标检测直接应用到视频目标检测是一个巨大挑战.不同于图像,在视频中可能会产生目标外观特征的退化,比如移动模糊,视频散焦,怪异 ...
一文看尽 27 篇 CVPR2021 2D 目标检测论文

作者丨二玖编辑丨极市平台极市导读本文对我们汇总的 CVPR 2021 检测大类中的2D目标检测领域的论文进行了盘点,将会依次阐述每篇论文的方法思路和亮点.在极市平台回复"CVPR21检 ...
【机器学习】异常检测算法速览（Python代码）

正文共: 8636字 8图预计阅读时间: 22分钟一.异常检测简介异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点.异常值检测等等. 1.1 异常检测适用的场景异常检 ...
大盘点 | 2020年5篇目标检测算法最佳综述

作者丨Cynthia Yawain 编辑丨极市平台本文为极市平台原创整理. 引言在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与进步.去年上半年,极市曾盘点过计算机 ...
低信噪比下的红外弱小目标检测算法研究综述

低信噪比下的红外弱小目标检测算法研究综述
基于局部对比度机制的红外弱小目标检测算法

0 引言随着红外焦平面性能水平的不断提高,红外探测系统在军事和民用中得到了广泛的应用,尤其是在制导.预警等领域具有非常重要的应用价值[1].其中,能否及时准确地检测到远距离目标,是关系到能否有效地制 ...
目标检测算法YOLOF：You Only Look One-level Feature

本文介绍 CVPR 2021 接收的目标检测论文 You Only Look One-level Feature. 原论文作者来自:中科院自动化所.中科院大学人工智能学院.中国科学院脑科学与智能技术卓 ...
实测U^2-net显著目标检测算法

今天体验了下U^2 -Net,在2020年的时候刷爆了 reddit 和 twitter,号称是当年最强的静态背景分割算法.u-2-net 的结构长什么样? 长得像U型,原来是基于语义分割网络u-ne ...
早读 | 肾细胞癌分子病理研究进展及检测专家共识，重点速览！

随着分子病理检测技术及研究领域的迅猛发展,肾细胞癌的分类及诊疗方案也在快速演变.近年来涌现了很多新的肾细胞癌类型,对已知类型的认识也得到了极大的发展.目前在大多数的肾细胞癌中存在分子遗传学异常,表现为 ...
重读 CenterNet，一个在Github有5.2K星标的目标检测算法

本文带领大家重温Objects as Points 一文,其于2019年4月发布于arXiv,谷歌学术显示目前已有403次引用,Github代码仓库已有5.2K星标,无论在工业界和学术界均有巨大影响力 ...
目标检测算法优化技巧：Bag of Freebies for Training Object Detection

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

目标检测算法21篇速览：检测网络优化及改进

导读

第一篇 MS-CNN

第二篇 R-FCN

第三篇 PVANET

第四篇 DSSD

第五篇 YOLOv2/YOLO9000

第六篇 FPN

第七篇《RON: Reverse Connection with Objectness Prior Networks for Object Detection》

第八篇《DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling》

第九篇《CoupleNet: Coupling Global Structure with Local Parts for Object Detection》

第十篇《Focal Loss for Dense Object Detection》

第十一篇《DSOD: Learning Deeply Supervised Object Detectors from Scratch》

第十二篇《MASK R-CNN》

第十三篇《Deformable Convolutional Networks》

第十四篇《YOLOv3》

第十五篇《Scale-Transferrable Object Detection》

第十六篇《Single-Shot Refinement Neural Network for Object Detection》

第十七篇《Relation Networks for Object Detection》

第十八篇《Cascade R-CNN: Delving into High Quality Object Detection》

第十九篇《Receptive Field Block Net for Accurate and Fast Object Detection》

第二十篇《Object Detection based on Region Decomposition and Assembly》

第二十一篇《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network》

本章总结

相关推荐