ECCV18 | 无监督难分样本挖掘改进目标检测
大量训练数据有助于目标检测系统性能的提升,对于已经训练好的系统而言,有研究发现,那些被系统误分类的少量“难分样本”,加入训练集重新训练能得到显著的性能提升。
但如果在实际系统中人工手动核验大量检测结果找出往往极少量的难分样本则是极其昂贵的。来自美国马萨诸塞大学的研究人员发明了一种无需人工干预的简单有效的难分样本挖掘方法,使得通过视频低成本获取难分样本成为可能。
这篇文章来自ECCV2018录用论文《Unsupervised Hard Example Mining from Videos for Improved Object Detection》,说它简单,因为全文无公式,只需要一张图就能表达其核心思想。
作者信息:
来看看官方的视频介绍:
重点来了!请看下图:
这里展示了一个视频序列中突然出现的负样本。作者认为,将目标检测用于视频时,某一帧中若是有一个目标突然出现,下一帧又突然消失,则此处检测的目标极有可能是难分样本。这被称为视频目标检测的闪烁(flicker)。
下面的图展示了难分样本挖掘的基本思想:
在视频序列中进行人脸检测,黄色框出的人脸是时间连续的出现的目标,红色框是检测闪烁,在红色框周围前后帧局部临域通过模板匹配(NCC实现),寻找是否有与其匹配的区域,若是有则认为这是检测器出错了,将其加入难分负样本。而那些连续被检测出来的框也不一定是正样本,将其加入伪正样本(pseudo-positives)。
同样的思路可以扩展到难分正样本挖掘,如下图:
实验结果
基线模型使用VGG16-based Faster R-CNN,在Caltech行人检测库和WIDER人脸检测库上,作者验证了使用该无监督难分样本挖掘对再训练后提高精度的有效性。
Caltech行人检测的改进结果:
WIDER人脸检测的改进结果:
部分挖掘得到的难分样本示例:
再训练时使用不同的挖掘出的样本的改进示例(HN:难分负样本,HP:难分正样本):
再FDDB上的取得的改进结果
作者还扩展到其他类别,从YouTube上下载视频,使用在MS-COCO数据库上训练的关于Dog和Train检测的VGG16-based Faster R-CNN模型,从视频中挖掘难分样本,再训练后同样获得了可观的性能改进。
这篇文章给出了一种非常简单低成本无监督的难分样本挖掘,挖掘得到的样本对目标检测系统再训练后取得了显著的性能提升,作者称代码将开源。
工程主页:
http://vis-www.cs.umass.edu/unsupVideo/
论文下载: