ICCV2021 还在用大量数据暴力train模型?主动学习,教你选出数据集中最有价值的样本
写在前面
主动学习(Active learning)旨在通过只在数据集上选择信息最丰富的样本来降低标记成本。现有的工作很少涉及到目标检测的主动学习。目前仅有的一些目标检测主动学习方法大多基于多个模型或是分类方法的直接扩展,因此只使用分类头来估计图像的信息量。
本文提出了一种新的目标检测的深度主动学习方法,依赖于混合密度网络,估计每个定位头和分类头输出的概率分布。作者明确地估计了单个模型的单一正向传递中的偶然(aleatoric)不确定性 和认知(epistemic)不确定性 。
本文的方法使用一个评分函数,聚合两个head的这两种类型的不确定性,以获得每个图像的信息性得分。作者在PSCAL VOC和MSCOCO数据集上证明了本文方法的有效性。
论文和代码地址
论文地址:https://arxiv.org/abs/2103.16130
代码地址:未开源
Motivation
深度检测网络的性能取决于标记数据的大小。在此基础上,研究人员探索策略,选择数据集中信息最丰富的样本进行标记,称为主动学习。通常,这是通过设计一个计算网络不确定性的评分函数来实现的。
一般来说,预测不确定性被分解为偶然和认知不确定性。前者是指数据中固有的噪声(如传感器噪声),或者遮挡、缺乏视觉特征造成的信息缺失 (也就是数据本身的不确定性)。后者是指由于缺乏模型知识而引起的不确定性 (也就是由于模型没有学好产生的不确定性),与训练数据的密度成反比。
建模和区分这两种类型的不确定性在主动学习中非常重要,因为它允许深度学习模型了解它们的局限性,即识别样本中的可疑预测(偶然不确定性),并识别不类似于训练集的样本(认知不确定性)。目前仅有的一些目标检测主动学习方法大多基于多个模型或是分类方法的直接扩展,因此只使用分类头来估计图像的信息量。
本文提出了一种新的用于目标检测的主动学习方法。作者的方法使用单个模型和单次正向传递,与基于多个模型的方法相比,显著降低了计算成本。尽管如此,作者的方法还是达到了很高的精度。为了做到这一点,作者充分利用了定位和分类的偶然和认知不确定性。
方法
3.1. Object detection with mixture modeling
Localization
在目标检测中,边界框b由其中心(x和y)的坐标、其宽度(w)和高度(h)来定义。在本文中,作者的混合模型不是预测一个确定性值,而是预测了每个边界框的3组参数:均值,方差,混合权重,如下所示:
其中,π是每个组件的混合权重,µ是边界框的每个输出的预测值,Σ是每个坐标的方差,表示其偶然不确定性。作者使用softmax函数将π保持在概率空间中,并使用Sigmoid函数来满足方差的正性约束。
Localization loss
传统的边界框回归损失,即smooth L1损失,只考虑了预测的边界框和GT的坐标。因此,它不能考虑边界框的模糊性(偶然不确定性)。为了训练混合密度网络的定位,作者提出了一种基于负对数似然损失的定位损失。
本文的损失使GMM的参数回归到anchor box的中心(x、y)、宽度(w)和高度(h)的偏移量:
Classification
对于目标检测的分类头,本文的方法估计了每个类的均值µ和方差,以及GMM的每个混合权重π。首先跟上一节一样,先对网络输出的值进行预处理,然后利用高斯噪声和方差对µ,得到第i个bounding box的类概率分布:
Classification loss
为了训练混合密度网络进行分类,作者提出了一个考虑Anchor Box与GT Box的损失函数,并考虑了 hard negative mining。更准确地说,作者将分类损失表示为和,分别代表代表正样本和负样本的贡献:
Final loss
作者将使用混合密度网络训练目标检测器的总体损失函数定义为:
3.2. Improving parameter efficiency
为了预测输出值的概率分布,本文的方法涉及到修改网络的最后一层,从而导致参数数量的增加,特别是在分类头。
3.3. Scoring function
主动学习中的评分函数为每张图像提供一个值,表示其信息量。本文的评分函数通过聚合图像中每个边界框的每个参数的所有偶然和认知不确定性值来估计图像的信息量。
实验
4.1. Object detection with mixture modeling
4.2. Active learning evaluation
Scoring aggregation function
Comparison to SOTA on VOC07
Comparison to SOTA on VOC07+12
Comparison to SOTA on MS-COCO
在COCO数据集上 ,上表总结了本文的方法与主动学习方法相比的主动学习性能和计算成本。
4.3. Scalability and dataset transferability
总结
在本文中,作者提出了一种新的目标检测的深度主动学习方法。在单个模型的一次正向传递中,依赖于混合密度网络来估计定位和分类任务的两种不确定性,并在评分函数中对信息量进行评分。
本文的混合建模和评分函数在精度和计算成本方面取得了显著的改进。此外,作者还在不同数据集和不同网络架构上,证明了本文方法的可迁移性。
作者介绍
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。
知乎/公众号:FightingCV