【科研】六篇精选论文,洞悉行人检测
AI研习图书馆,发现不一样的精彩世界
论文:https://arxiv.org/abs/1904.02948
代码: https://github.com/liuwei16/CSP

论文简介:目标检测通常需要传统的滑动窗口分类器或现代深度学习方法中基于锚框的预测。但是,这些方法中的任何一种都需要在boxes中进行繁琐的配置。在本文中,作者提供了一个新的视角,即将检测对象作为高级语义特征检测任务来激发。像边缘,拐角,斑点和其他特征检测器一样,建议的检测器在整个图像上扫描特征点,因此自然适合进行卷积。
但是,与这些传统的低级功能不同,建议的检测器需要更高级别的抽象,也就是说,作者正在寻找存在对象的中心点,并且现代深度模型已经能够实现这种高级语义抽象。此外,像斑点检测一样,作者还可以预测中心点的尺度,这也是一个简单的卷积。因此,在本文中,通过卷积将行人和面部检测简化为直接的中心和规模预测任务。
这样,所提出的方法共享box-free设置。尽管结构简单,但它在包括行人检测和人脸检测在内的几个具有挑战性的基准上都具有竞争优势。此外,执行了跨数据集评估,证明了所提出方法的出色泛化能力。

论文贡献:本文提出了一个新的解决行人检测的视角,将目标检测理解为高级语言特征检测任务,像边缘,拐角,斑点和其他特征检测器一样,建议的检测器在整个图像上扫描特征点,因此自然适合进行卷积。但是,与这些传统的低级特征检测器不同,建议的检测器用于更高级别的抽象,也就是说,正在寻找存在对象的中心点。此外,类似于斑点检测,还预测了中心点的尺度。
然而,考虑到它的强大功能,但是不像传统的斑点检测那样处理图像金字塔来确定比例,而是通过在全卷积网络(FCN)上进行一次直接卷积来预测对象比例。结果,行人和面部检测通过卷积被简单地表述为简单的中心和比例预测任务。所提出的方法的总体流程,表示为基于中心和规模预测(CSP)的检测器。这项工作的主要贡献如下:
展示了一种新的可能性,即行人和人脸检测可以通过卷积简化为直接的中心和尺度预测任务,从而绕开了基于锚框的探测器的局限性,并且摆脱了基于最近的关键点配对的检测器的复杂后处理
CSP检测器在两个具有挑战性的行人检测基准(CityPersons和Caltech)上达到了最新的最佳性能,并且在最受欢迎的人脸检测基准之一上也达到了竞争性能 进行跨数据集评估时,建议的CSP检测器具有良好的泛化能力

论文指标:作者在行人数据集Caltech, Cityperson数据集上做了实验,使用False Positive Per Image(FPPI)作为评估指标。CSP方法在Caltech数据集上的Reasonable、All、Heavy Occlusion状态下FPPI指标分别是最好的3.8%、54.4%、36.5%,在CityPerson数据集上的Reasonable、Heavy Occlusion状态下FPPI指标分别是的11.1%、49.3%。

论文:https://arxiv.org/abs/1912.10664
代码:https://github.com/ucas-vg/TinyBenchmark


据悉,这是具有远距离背景的远距离人检测的第一个基准。Train/val注释将公开发布,并将建立在线基准以进行算法评估。2.作者全面分析了有关小人物的挑战,并提出了尺度匹配方法,目的是使网络预训练数据集和检测器学习数据集之间的特征分布保持一致。3.提出的比例匹配方法提升了最先进的检测器(FPN)5%的性能。


论文:http://openaccess.thecvf.com/content_ECCV_2018/
代码: https://github.com/rainofmine/Bi-box_Regression


提出了一种bi-box regression方法,通过学习由两个分支组成的深层CNN(一个用于全身估计,另一个用于可见部分)来实现行人检测和遮挡的同时估计
提出了一种训练策略,以改善两个分支之间的互补性,以便可以融合其输出以提高行人检测性能
预测行人框的可见部分是可行的,并可以带来整体行人检测的性能提升;训练时,结合遮挡程度来定义高质量的正样本,可以为训练带来帮助,不失为一种非常经济有效的提升性能的trick


【4】Repulsion Loss: Detecting Pedestrians in a Crowd
论文:http://arxiv.org/abs/1711.07752
代码:https://github.com/rainofmine/Repulsion_Loss

论文简介:在行人检测中,人群被遮挡的情况非常常见,原因是行人经常聚集在一起,互相遮挡。人群遮挡的主要影响是增加了行人定位的难度。例如,当目标行人T与另一个行人B靠的比较近时,探测器容易混淆,因为这两个行人具有相似的外观特征。结果,预测框本来应该是定位到T但是结果可能会移动到B,从而导致定位不准确。更糟糕的是,最终结果需要通过非最大值抑制(NMS)进一步处理,最初将边界框从T移到B,NMS后可能会被B的预测框所抑制,使T变成漏检。
也就是说,人群遮挡使检测器对NMS阈值敏感:较高的阈值会带来更多的误检,而较低的阈值会导致更多的漏检。行人检测中遮挡分为两种类型,一种是由于非目标造成的遮挡,文中作者称为Reasonable-occlusion,另外一种是由于也是需要检测的目标造成的遮挡,作者称为Reasonable-crowd。对于前一种类型遮挡,很难有针对性的办法去解决,最好的办法也就是使用更多的数据和更强的feature。但是对于后一种类型的遮挡,现在的pipeline其实并没有很好充分利用信息。

主要贡献:针对行人检测中的遮挡问题,本文提出了一种新的损失函数,专为遮挡行人检测而生,用来约束检测器的提议区域,可以有效提升遮挡行人的检测精度。

作者提出Repulsion loss函数定义如下:


论文总结:本文从分析数据集出发,找到遮挡对于检测器性能影响的具体情况,借助磁铁的同性相吸异性相斥的思想提出了带有排斥项的RepLoss。其主要想法在于目标物体的吸引损失并不足以训练出最优的检测器,来自周围物体的排斥损失同样至关重要。RepLoss 专为行人检测精心设计,尤其提升了密集场景的检测性能。

论文: https://arxiv.org/abs/1904.06859
论文简介:热图在夜晚或者其他光照条件差的情况下检测行人效果很好,但是在白天效果却很差。为了解决热图在白天效果差的问题,大多都是融合热图和Rgb图。而作者却是通过用热图的显著图来对热图增强,以便进行更好的检测,尤其是在白天的情况下,只用了热图,没用rgb图,模型最好的表现相对于baseline的白天和黑夜的情况,miss rate分别降低了13.4%和19.4%。

第一次使用显著图来提升在热图上做行人检测的性能
开源了像素级别的注释

论文总结:白天的时候,人与周围环境很难区分。因为显著图丢弃了所有的在热图里的语义信息,所以如果只用显著图的话就很有问题,故采用同时输入显著图和热图来训练,即用显著图来增强热图来训练。做法也很简单,就是用提取的显著图(单通道)来替换3通道的热图的一个通道,如图1(a)。这样这个三通道的新图既保留了原始热图的语义信息,又通过显著通道表明了图片中的显著部分。然后将这个新的3通道的图片投入faster r-cnn进行训练,如图1(b)。

R3-Net使用Residual Refinement Block(RRB)循环迭代地学习gt与显著图之间的残差。RRB在每次循环迭代时选择性的利用低层特征与高层特征来精细化显著图,具体就是通过将之前的学习到的显著图添加到学习到的残差上进行精细化

【6】Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting
论文:http://openaccess.thecvf.com/content_ECCV_2018
代码:https://github.com/VideoObjectSearch/ALFNet

论文简介:尽管更快的两级检测器已经见证了行人探测精度的显著提升,但对于实际应用仍然很慢。一种解决方案是简化这种工作流程作为单级检测器。然而,当前的单级检测器(如SSD)在常见的行人检测基准上没有提供竞争准确性。本文是一个成功的行人检测器,享有SSD的速度,同时保持Faster R-CNN的准确性。具体而言,本文提出了一种结构简单并且有效的模块,称为渐近定位拟合(ALF),它叠加了一系列预测器,可以逐步直接演化SSD的默认锚框,从而改进检测结果。
因此,在培训期间,后者预测器可以享受更多更优质的正例样本,同时可以通过增加IoU阈值来开采更难的负例。最重要的是,本文设计了一个高效的单级行人检测架构(ALFNet),在CityPersons和Caltech这两个最大的行人检测基准上实现了最先进的性能,从而产生了一个极具吸引力的行人检测器。



