青出于蓝而胜于蓝,超越MixUp、CutMix的样本混合数据增广新算法FMix
深度学习实践中,数据的增广有很多种方法,比如在计算机视觉任务中除了常规的对单样本进行缩放、颜色扰动、旋转、镜像等外,也可以通过对两个样本进行混合,生成新的虚拟样本训练集。这类方法被称为样本混合数据增广(Mixed Sample Data Augmentation,MSDA),比如MixUp。
MixUp 方法公式:
通过对两个样本标签和输入向量的加权,生成新的虚拟训练样本。
前天新出的论文Understanding and Enhancing Mixed Sample Data Augmentation,来自英国南安普顿大学的研究学者从信息论的角度试图理解这种方法的原理,并提出了新的数据增广方法FMix,在多个数据集上均表现SOTA。
FMix是在CutMix的启发下对方法的推广。
我们先看看看CutMix做了什么。
Mixup是在全图上进行加权,CutMix是在图像上取方块的位置再加权混合像素,CutMix取得了更好的效果。
作者们提出的FMix则是对图像按照高频和低频区域进行二值化区分区域,然后使用此Mask进行分像素的加权。
如下图:
论文的实验在图像分类(CIFAR-10、CIFAR-100、Fashion、ImageNet)、文本分类(Toxic)等任务中显示,FMix取得了一致的性能提升,是目前最先进的样本混合数据增广方法。
论文中还进行了理论分析,作者也已经将代码开源了,欢迎大家试用!
论文地址:
https://arxiv.xilesou.top/pdf/2002.12047.pdf
代码地址:
https://github.com/ecs-vlc/FMix
赞 (0)