目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

2024-06-17 19:16:51

计算机视觉研究院专栏

作者：Edison_G

近年来，在利用深度卷积网络检测目标方面取得了显著进展。然而，很少有目标检测器实现高精度和低计算成本。

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

一、简要

近年来，在利用深度卷积网络检测目标方面取得了显著进展。然而，很少有目标检测器实现高精度和低计算成本。今天分享的干货，就有研究者提出了一种新的轻量级框架，即多级特性重用检测器(MFRDet)，它可以比两阶段的方法达到更好的精度。它还可以保持单阶段方法的高效率，而且不使用非常深的卷积神经网络。该框架适用于深度和浅层特征图中包含的信息的重复利用，具有较高的检测精度。

二、背景

（a）仅使用单尺度特征进行预测，（b）整合来自高级和低级特征图的信息，（c）从不同尺度的特征图生成预测，（d）就是今天分享的多层特征重用模块可以获得不同尺度的特征图。

Shot learning

在深度学习领域，特别是目标检测领域，数据集的建设是至关重要的。进行了许多优秀和有价值的研究，改进了多元数据集的理论和实践。有研究者创建了一种有效的从Web学习方法来解决问题的数据集偏差，没有手动注释。这可能提供了一种帮助zero-shot学习的方法。zero-shot学习研究的主要问题是目标分类问题和目标检测问题。目前，在zero-shot学习中仍存在一些需要解决的问题，如domain shift problem, hubness problem和semantic gap问题。zero-shot学习通常将视觉特征嵌入其他模态空间，或将多个模型空间映射到一个共同的潜在空间，使用最近邻思想对看不见目标进行分类，这对目标检测器有很高的需求。

One-shot学习的目的是从一个或只有少数的训练图像中学习有关目标类别的信息。与zero-shot学习不同，One-shot学习依赖于先验知识，比如物体识别，它需要对形状和外观的先验知识。

三、新框架

SSD分析

SSD和Yolo一样都是采用一个CNN网络来进行检测，但是却采用了多尺度的特征图，其基本架构如下图所示。下面将SSD核心设计理念总结为以下三点：

SSD基本框架

（1）采用多尺度特征图用于检测

所谓多尺度采用大小不同的特征图，CNN网络一般前面的特征图比较大，后面会逐渐采用stride=2的卷积或者pool来降低特征图大小，这正如上图所示，一个比较大的特征图和一个比较小的特征图，它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标，如下图所示，8x8的特征图可以划分更多的单元，但是其每个单元的先验框尺度比较小。

不同尺度的特征图

（2）采用卷积进行检测

与Yolo最后采用全连接层不同，SSD直接采用卷积对不同的特征图来进行提取检测结果。对于形状为

的特征图，只需要采用

这样比较小的卷积核得到检测值。

（3）设置先验框

在Yolo中，每个单元预测多个边界框，但是其都是相对这个单元本身（正方块），但是真实目标的形状是多变的，Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor的理念，每个单元设置尺度或者长宽比不同的先验框，预测的边界框（bounding boxes）是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个先验框，其尺度和长宽比存在差异，如图5所示，可以看到每个单元使用了4个不同的先验框，图片中猫和狗分别采用最适合它们形状的先验框来进行训练，后面会详细讲解训练过程中的先验框匹配原则。

SSD的先验框

SSD的检测值也与Yolo不太一样。对于每个单元的每个先验框，其都输出一套独立的检测值，对应一个边界框，主要分为两个部分。第一部分是各个类别的置信度或者评分，值得注意的是SSD将背景也当做了一个特殊的类别，如果检测目标共有

个类别，SSD其实需要预测

个置信度值，其中第一个置信度指的是不含目标或者属于背景的评分。后面当我们说

个类别置信度时，请记住里面包含背景那个特殊的类别，即真实的检测类别只有

个。在预测过程中，置信度最高的那个类别就是边界框所属的类别，特别地，当第一个置信度值最高时，表示边界框中并不包含目标。第二部分就是边界框的location，包含4个值

，分别表示边界框的中心坐标以及宽高。但是真实预测值其实只是边界框相对于先验框的转换值(paper里面说是offset，但是觉得transformation更合适，参见R-CNN)。先验框位置用

表示，其对应边界框用

$表示，那么边界框的预测值

其实是

相对于

的转换值：

习惯上，我们称上面这个过程为边界框的编码（encode），预测时，你需要反向这个过程，即进行解码（decode），从预测值

中得到边界框的真实位置

：

然而，在SSD的Caffe源码实现中还有trick，那就是设置variance超参数来调整检测值，通过bool参数variance_encoded_in_target来控制两种模式，当其为True时，表示variance被包含在预测值中，就是上面那种情况。但是如果是False（大部分采用这种方式，训练更容易？），就需要手动设置超参数variance，用来对

的4个值进行放缩，此时边界框需要这样解码：

综上所述，对于一个大小

的特征图，共有

个单元，每个单元设置的先验框数目记为

，那么每个单元共需要

个预测值，所有的单元共需要

个预测值，由于SSD采用卷积做检测，所以就需要

个卷积核完成这个特征图的检测过程。

新框架（MFRDet）

如上面所述，有许多利用尝试观察和充分利用金字塔特征。图（b）显示了最常见的模式之一。这种类型经过了历史验证，大大提高了传统检测器的性能。但是这种设计需要多个特征合并过程，从而导致大量额外的计算。

今天分享的框架提出了一种轻量级、高效的多级特征重用(MFR)模块（如图（d）所示)。该模块能够充分利用不同尺度的特征图，集成了深、浅层的特征，提高了检测性能。特征重用模块可简要说明如下：

S的选择：

在初步设计它们时，需要考虑以下几个关键因素。首先，应该选择要重用的图层。在传统的SSD中，作者部署了conv4_3、fc7和另外四个SSD层进行预测。6个选定的特征地图的比例表包括38×38、19×19、10×10、5×5和1×1。在不同的SSD中，这些层是独立的，今天这个研究者不同意。研究者相信，小尺度特征图中存在的语义信息在尺度变换后的检测中仍然有效。选择了六个预测层和conv5_3层作为框架要重用的源层。从下表中，可以得出一个明确的结论，即重用conv3_3将降低检测精度。高分辨率特征图没有足够的高级语义信息，因此放弃了对其信息的重用。

Ti的转换策略：

在传统的SSD中，规模为38×38、语义信息很少的浅层conv4_3负责小目标识别。conv4_3层被设置为需要包含更深层语义信息的基本层。策略因特征图的标准而不同。首先，对每个源层应用Conv1×1来减小特征尺寸。然后，在Conv1×1层后，通过双线性插值，将尺度小于38×38的层(四个SSD_layers和fc7层)放入相同大小的38×38中。这样，所有的源特性都会转换为相同的大小。

Ψt的选择：

在转换策略Ti的过程完成后，创建了新的变换特征图。它们是conv4_3、conv5_3、fc7、conv8_2、conv9_2、conv10_2和conv11_2。有两种方法可以将新转换的特征映射合并在一起。通过实验验证，这两种方法都能得到良好的结果。从上表中，可以了解到连接似乎更适合我们的模型。

四、实验

在coco数据集上的检测可视化结果

多尺度深度特征（上）：多尺度特征学习才是目标检测精髓（干货满满，建议收藏）

计算机视觉研究院专栏作者:Edison_G 深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征.它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考 ...
ECCV 2018 | 行人检测全新视角：从人体中轴线标注出发

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖 ...
2021年小目标检测最新研究综述

作者丨高新波.莫梦竟成.汪海涛.冷佳旭编辑丨极市平台极市导读与以往将小目标与常规目标等同对待或只关注特定应用场景下的目标检测综述不同,本文对小目标检测这一不可或缺且极具挑战性的研究领域进行了系 ...
【OCR技术系列之五】自然场景文本检测技术综述（CTPN, SegLink, EAST）

文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...
【yolov3详解】一文让你读懂yolov3目标检测原理

yolov3目标检测原理目录第一步:从特征获取预测结果第二步:预测结果的解码第三步:对预测出的边界框得分排序与非极大抑制筛选前言一.详细过程二.yolov3检测流程原理(重点) 前言本文 ...
ECCV2020|基于关键点的单目3D目标检测

论文原文:RTM3D:Real-timeMonocular3DDetectionfromObject KeypointsforAutonomousDriving 论文地址: https://www.a ...
【学术论文】一种改进的RefineDet多尺度人脸检测方法

摘要: 针对车站.商场等大型场所中客流量大.背景复杂等原因导致多尺度人脸检测精度低的问题,建立了一种基于RefineDet多层特征图融合的多尺度人脸检测方法.首先利用第一级网络进行特征提取并在不同尺度 ...
SSD与MobileNet详解

SSD与MobileNet详解
Micro-YOLO：探索目标检测压缩模型的有效方法（附论文下载）

重磅干货,第一时间送达 AI算法与图像处理考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作.分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Py ...
干货 | 高中生物必修课本重点知识填空！（文末附答案）

必修一 1.科学家根据 ,把细胞分为真核细胞和原核细胞两大类. 2. 是组成蛋白质的基本单位. 3.一切生命活动都离不开 ...
初中数学知识点干货总结（文末提供word下载）

中考重难点突破
【中考干货】答题万能公式初中生快来收藏！（附电子版下载）

历史君说没有水分都是干货 1 性质分析:任务+领导阶级+主力+手段+结果-- 如辛亥革命性质分析: 任务是反帝反封建,在中国独立发展资本主义:由资产阶级领导,具有一定群众基础,采取暴力革命手段:结 ...
干货 | 23张思维导图帮你搞定英语全部语法！（文末附电子版可打印）

高中英语预习高中英语预习(ID:gzeg100) 是陕西省教育学会质量综合评价中心联合玖桔教育传媒集团,整合全国教育资源打造的教育融媒体平台,为学生.家长.教师提供教育资讯.教育活动和全面的教育服务 ...
【历史干货】七上历史全册知识速记手册（文末附电子版）

【历史干货】七上历史全册知识速记手册（文末附电子版）
【干货】吊索具、钢丝绳报废判别，文末一键下载（PPT版）

我从事安全管理工作,以此为职业和事业,只为对您生命的尊重,对家人的爱与责任. 我的工作是转移您的风险,最忧您的疏忽大意,最乐您完成出门时的心愿.我干了一份很纠结的工作,要跟刚找到工作的人讲职业危害,跟 ...
【干货收藏】位移计安装前检测，裂缝计安装布点，位移计安装方法。

裂缝计使用的场合很广,以前的推文大水牛便详细的介绍过了位移计的用途即应用的监测工程的领域,不知新入坑的你,可还能详细的记得呢? 位移计安装应用的领域很广,因此不同的场合埋设安装方法便不同,下面我们可以 ...
干货！入境韩国必备的核酸检测证明，在哪里申请？！

导语: 韩国疾病防控中心宣布:自2021年1月8日起,外国人入境韩国必须提供PCR(核酸检测)阴性确认书.针对这一政策,老王今天为大家整理了三大类干货:找到韩国认证的核酸检测机构的方法,检测全流程介绍 ...

目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

相关推荐