Softer-NMS:CMU&旷视最新论文提出定位更加精确的目标检测算法

2024-06-22 13:23:09

前天arXiv新上论文《Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection》，来自卡内基梅隆大学与旷视科技的研究人员在文中提出了一种新的非极大抑制算法Softer-NMS，显著改进了目标检测的定位精度，代码已经开源，目前Github上的Star已超100，可谓短短两天已经引起了不小的关注。

作者信息：

目前NMS算法的问题

非极大抑制（Non-maximum suppression，NMS）算法对于目前state-of-the-art目标检测算法从多个候选位置定位目标非常重要，在目前的NMS算法中，使用目标的分类分数作为候选位置精确度的体现，即分类成某类物体的分数越高代表定位精度也越精确，但作者发现，其实很多时候并不是如此。

作者关注了两种目前NMS会出问题的情况：

1）所有的候选包围框都不够精确（这时候该选择哪一个？或者有没有可能综合这些候选框的信息提高精度？）；

2）拥有高的分类分数的候选包围框不精确（如何更有效地评价候选框的定位精度？）。

请看下图：

图中（a）展示了2个均在某些坐标不精确的候选包围框，（b）展示了定位精度高的候选框分类分数较低。

以上检测失败的例子都表明，定位置信度并不是与分类置信度强相关（事实上好的分类器应该对定位信息不敏感）。

算法思想

基于上述观察，该文提出了一种新的包围框回归的损失函数（KL Loss），用来同时学习包围框变换和定位置信度。

KL Loss 包围框回归

作者建模包围框预测是一种高斯分布，而ground truth包围框是Dirac delta function（狄拉克delta函数，又称为狄拉克delta分布，是一种标准差趋近于0的高斯分布的极限，如下图所示）。

KL 散度用来衡量两个概率分布的非对称性度量，KL散度越接近0代表两个概率分布越相似。

KL loss即为最小化包围框预测的高斯分布和ground truth的狄拉克delta分布的KL散度。直观上解释，KL Loss使得包围框预测呈高斯分布，且与ground truth相近。而将包围框预测的标准差看作置信度。

网络架构

由图中可知，标准差估计与包围框定位都包含在损失函数Lreg中。

损失函数定义：

当候选框预测不准确的时候，希望方差尽可能小，减小Lreg。（更接近ground truth的包围框预测肯定是稳定的，方差较小的）

Softer-NMS算法流程

得到上述置信度，即可以在Soft NMS后进一步改进，将大于一定重叠度阈值Nt的候选包围框根据置信度加权平均。（因为在训练的时候寻求包围框预测的方差小，所以这一步加权平均后不会出现框出来“四不像”的情况）

实验结果

作者使用多个网络模型在PASCAL VOC2007和MS-COCO数据库上进行了实验。

作者首先研究了加权时的阈值，Table 1中，发现0.5～0.8是较理想的区间，作者在后续实验使用了0.7。

Table 2通过分析实验表明，该文提出KL Loss和softer-NMS稳定提高了定位的精度。

作者测试了在MS-COCO数据库上的推断速度，发现Softer-NMS只是轻微增加了一点时间，可以忽略不计。

通过与FPN ResNet-50 、fast rcnn结合在 MS-COCO 上的实验，与其他NMS方法比如IoU-Net相比，取得了性能优势，达到了state-of-the-art的包围框定位精度（37.8%）。

使用Faster R-CNN在PASCAL VOC 2007数据集上结合不同的骨干网也取得了显著的性能优势。

Softer-NMS运行结果示例：

图中（a）展示通过加权平均提精了定位精度，（b）展示了对于定位来说包围框预测置信度比分类置信度更可靠。

总结

通过设计新的包围框回归损失函数KL Loss和基于此包围框置信度的加权平均NMS方法，该文发明的Softer-NMS取得了显著的性能提升，提精了目标检测定位精度。

论文地址：

https://arxiv.org/abs/1809.08545

代码地址：

https://github.com/yihui-he/softer-NMS

长按关注我爱计算机视觉

【点赞与转发】就是一种鼓励

CenterNet：目标即点（代码已开源）

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
解读TRPO论文，深度强化学习结合传统优化方法

导读:本论文由Berkeley 的几位大神于2015年发表于 JMLR(Journal of Machine Learning Research).深度强化学习算法例如DQN或者PG(Policy G ...
矩阵乘法无需相乘，速度提升100倍，MIT开源最新近似算法

在不做乘加操作(multiply-adds)的情况下,能计算矩阵乘法吗? 矩阵乘法包含大量a+b×c类运算,因此常在运算中将乘法器和加法器进行结合成一个计算单元,进行乘法累加操作. 用近似算法的话,确 ...
DL之SSD：SSD算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之SSD:SSD算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略相关文章 DL之SSD:SSD算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 DL之SSD:SSD算 ...
变分贝叶斯方法 | 机器之心

变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术.它主要应用于复杂的统计模型中,这种模型一般包括三类变量:观测变量(observed variables, ...
基于Mask-GD分割的机器人抓取检测

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
CVPR 2019 | 目标检测之面向更高精度的包围框回归

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
梯度下降法数学家澄清了现代应用中最重要的算法的本质

majer @ 2021.08.24 , 16:39 现代应用研究的许多方面都依赖于一种叫做梯度下降的关键算法.这是一个通常用于寻找特定数学函数的最大或最小值的程序--过程被称为优化函数.它可以用来计 ...
ICCV 2019 | 南开提出边缘引导的显著目标检测算法EGNet，刷新主流数据集所有评价指标

人类的视觉感知中,可以非常容易的聚焦于场景的显著性目标,在计算机视觉的很多问题中,也需要类似的机制,可以让计算机更好地理解场景.尤其是人类目的明确的应用场景. 比如,52CV曾经跟大家分享过淘宝的拍照 ...
超越MobileNetV3，谷歌提出MobileDets：移动端目标检测新标杆

极市导读:在移动端上的目标检测架构,目前比较流行的三大派系分别为:谷歌出品的MobileNet系列(v1-v3).旷视科技产品的ShuffleNet系列(v1-v2).Facebook出品的FBNet ...
Grid R-CNN解读：商汤最新目标检测算法

Grid R-CNN是商汤科技最新发表于arXiv的一篇目标检测的论文,对Faster R-CNN架构的目标坐标回归部分进行了替换,取得了更加精确的定位精度,是最近非常值得一读的论文. 今天就跟大家一 ...
【学术论文】高帧频视觉实时目标检测系统

摘要为了实现高速场景下的智能实时目标检测,设计了一种基于ZYNQ7000系列FPGA的高速相机平台,并利用该平台进行目标检测算法实现,形成了一套高帧频实时目标检测系统样机. 该系统将高速CMOS图像 ...
NeurIPS 2019 | 中科院、旷视提出DetNAS框架：一种可用于目标检测的Backbone搜索

前言本文将对NeurIPS 会议论文<DetNAS: Backbone Search for Object Detection>进行解读,这篇论文在目标检测领域的神经网络架构搜索(Neu ...
ICCV2019 | 港科大、清华与旷视提出基于元学习的自动化神经网络通道剪枝网络

MetaPruning:Meta Learning for Automatic Neural Network Channel Pruning 论文作者:Zechun Liu , Haoyuan Mu ...
ICCV2019 | 旷视提出轻量级目标检测网络ThunderNet

本文作者:Liyang 作者学校:复旦大学研究方向:Object Detection/CNN complier 论文地址:https://arxiv.org/pdf/1903.11752.pdf 源 ...
旷视孙剑团队提出Anchor DETR：基于Transformer的目标检测新网络

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 214篇原创内容 Official A ...
CVPR2021 DRConv：即插即用！旷视孙剑、张祥雨团队提出动态区域感知的卷积，涨点显著！

▊ 写在前面在本文中,作者提出了一种名为动态区域感知卷积(DRConv) 的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域.标准卷积层通常是增加滤波器的数量以提取更多的视觉信息,但这 ...

Softer-NMS:CMU&旷视最新论文提出定位更加精确的目标检测算法

相关推荐