ICCV2021 Oral SimROD:简单高效的数据增强!华为提出了一种简单的鲁棒目标检测自适应方法
▊ 写在前面
本文提出了一种简单有效的鲁棒目标检测无监督自适应方法(SimROD)。为了克服域转移(domain shift)和伪标签噪声(pseudo-label noise)等问题,本文的方法集成了域中心增强方法(domain-centric augmentation method) 、渐进的自标签适应机制(gradual self-labeling adaptation procedure) 和教师指导的微调机制(teacher-guided fine-tuning mechanism) 。
▊ 1. 论文和代码地址
论文:https://arxiv.org/abs/2107.13389
代码:https://github.com/reactivetype/simrod
▊ 2. Motivation
当测试集的数据分布和训练集相似时,SOTA的目标检测模型能够达到比较高的精度。但是,当部署到新环境中时,比如天气变化(如雨或雾)、光照条件变化或图像损坏(如运动模糊),模型的精度就会大幅度下降。
2)其次,它既不需要复杂的模型结构更改,也不需要生成模型来创建合成数据
3)第三,它与模型结构无关的,并不局限于基于区域的检测器。
▊ 3. 方法
3.1. Problem statement
给定一个参数为θ的目标检测的源模型M,该模型由源训练数据集,进行训练,其中是一个图像,每个标签由目标类别和边界框坐标组成。
2)其次,利用源模型θ为生成伪标签会导致由域位移引起的有噪声监督,阻碍了自适应过程。
3.2. Simple adaptation for Robust Object Detection
本文提出了简单的自适应方法SimROD,以实现鲁棒的目标检测模型。SimROD集成了一种教师指导的微调 、一种新的DomainMix增强方法和一种逐步适应技术 。
3.2.1 Overall approach
2)利用逐步适应算法,将大型教师模型参数从θ逐步更改为θ。在这一步中,使用的是由DomainMix增强生成的混合图像,而不是单独的源数据集或者目标数据集的图片。
3)使用自适应的教师模型参数θ来细化目标数据上的伪标签。然后,使用这些伪标签来微调学生模型。
这种方法的一个好处是,它可以使小模型和大模型同时适应域的转移,因为即使在学生网络很小时,它也能产生高质量的伪标签。另一个优点是,教师和学生不需要共享相同的结构。因此,教师模型可以选择的一个参数量大、计算量大的模型来提高精度,学生模型可以选择一个轻量级的模型。
3.2.2 DomainMix augmentation
它通过从源和目标集中随机采样并混合图片,产生一组不同的图像。它在每个epoch都使用了不同的图像样本,从而增加了训练样本的有效数量,防止了过拟合(原理类似CutMix数据增强)。
它的数据处理效率比较高,因为它使用了来自这两个域的加权平衡采样。这有助于学习对数据转移具有健壮性的表示,即使目标数据集的样本有限或源和目标数据集高度不平衡。
它在同一幅图像中混合了Ground Truth标签和伪标签。这减轻了自适应过程中错误标签的影响,因为图像总是包含来自源域的准确标签。
3.2.3 Gradual self-labeling adaptation
接下来,作者提出了一个逐步适应的方法来优化检测模型的参数,该算法减轻了标签噪声的影响。由源模型生成的伪标签可能在目标域图像上有噪声,直接微调模型所有的层会阻碍模型的适应。
▊ 4.实验
4.1. Synthetic-to-real and cross-camera benchmark Datasets
Sim10K to Cityscapes
KITTI to Cityscapes benchmark
4.2. Cross-domain artistic benchmark
4.3. Image corruptions benchmark
Main results
Ablation Study
Qualitative analysis
▊ 5. 总结
在本文中,作者提出了一种简单而有效的无监督方法来适应域位移下的检测模型。本文中的自标记框架采用了一种域中心的增强方法和教师指导的微调适应模型。基于现有的小模型和大模型,本文的方法在模型鲁棒性方面取得了显著的性能增益。本文的方法不仅减轻了由于低级图像损坏而引起的域位移的影响,而且在源域和目标域之间存在高级风格差异时,它也可以适应模型。
▊ 作者简介
知乎/公众号:FightingCV
END