DivideMix: Salesforce提出使用半监督学习大幅改进含噪声标签的学习


该文作者信息:

众所周知,近年来深度学习的长足进步离不开大规模高标准的标注数据,但在大多数现实问题中,获得数量可观的标注数据需要付出大量的时间和金钱代价。

而互联网上可以获得大量的含有标签噪声的数据,比如从搜索引擎查找返回的数据、从社交网络下载的含有tag的数据等,如何利用这些大规模含噪声标签的数据是降低标注成本的重要方向。

该文提出DivideMix方法,核心思想为 co-divide + 改进的MixMatch,其算法流程如下:

1. 提出了co-divide,该过程同时训练两个网络。对于每个网络,在其每个样本的损失分布上动态拟合高斯混合模型(GMM),以将训练样本分为有标签数据(最可能干净的数据)和无标签数据(最可能是噪声的数据)。然后,将分割后的数据用于训练另一个网络。同分使两个网络保持分开,以便它们可以过滤不同类型的错误并避免自训练中的确认偏差。

2. 在后续的半监督学习阶段,通过标签co-refinement和co-guessing来改进MixMatch,解决标签噪音问题。对于有标签的样本,我们使用GMM针对另一个网络的网络预测来完善其真实标签。对于没有标签的样本,我们使用两个网络的集成为它们的标记做出可靠的猜测。

算法流程:

实验结果

作者在多个数据集上不同的噪声比例下进行了实验,结果表明,DivideMix在多个基准数据集上显著提高了精度。齐刷刷站到最高点!

该文已经被ICLR 2020录用,作者也已将代码开源,感兴趣的小伙伴,赶紧实验下吧。

论文地址:

https://arxiv.org/pdf/2002.07394.pdf

代码地址:

https://github.com/LiJunnan1992/DivideMix


半监督学习交流群

(0)

相关推荐