MeanTeacher论文学习笔记

项目 内容
论文名 Mean teachers are better role models:Weight-averaged consistency targets improvesemi-supervised deep learning results
作者 Antti Tarvainen,Harri Valpola
主要内容 提出对Temporal Ensembling的改进方法,对模型的权重进行平均,而不是对预测标签进行平均
发表时间 2017年

Abstract

Temporal Ensembling对每个训练样本的预测标签进行指数滑动平均(EMA),并惩罚与这个目标不一致的预测,得到了SOTA的结果。但是目标每一代仅改变一次,当学习较大的数据集时Temporal Ensembling变得笨拙。

作者提出Mean Teacher方法来解决上述问题。Mean Teacher方法对模型的权重而不是预测标签进行平均,获得了准确性的提升。

Introduction

深度学习模型需要大量的参数去学习有用的特征抽象,这使得他们容易产生过拟合。然而,手工添加高质量标签的成本是非常高的。因此,需要在半监督学习中使用正则化方法有效利用未标记的数据去减小过拟合效应。

当一个被感知的对象轻微改变,人类依然能够认为它是同样的对象。所以分类模型应该能够对相似数据点有一致的输出。正则化方法就是在为了在输入数据上添加噪声,使模型学习到这种不变性。

因为无标签样本的分类损失无法定义,噪声本身的正则化在半监督学习中不能提供帮助。为了克服这个问题, Γ \Gamma Γ模型对每个数据点包含噪声和不包含噪声的情况进行评估,在它们之间应用了一个一致性损失(consistency cost)。模型假定了一对角色:老师和学生。学生像以前一样学习;老师生成标签,并将这些标签用于学生的训练。由于标签是模型自己生成的,所以它有很大可能是不对的,这就影响模型提升精度,需要通过提升标签的质量来优化。

有至少两种方法提升标签的质量。一种是更精心的选择表示的扰动,而不是仅仅使用加性和乘性噪声。另一种方法是更精心的选择教师模型,而不是仅仅复制学生模型。对于第一种方法,有人已经提出了Virtual Adversarial Training。作者研究第二种方法,作者表示这两种方法并不冲突,是可以结合的,但是不在改论文的讨论范围之内。

Π \Pi Π model在推理时对模型加入噪声,减轻了模型对无标签数据产生错误预测标签的情况,一个加入了噪声的教师模型可以产生更精确的目标。

Π \Pi Π model的升级版是Temporal Ensembling,它对每一个训练样本维持了一个指数滑动平均。每个训练步骤,这个批次中样本的EMA预测值将通过新的预测值更新。但每个目标在每一代只被更新一次,更新速度较慢。并且越大的数据集,更新越慢。

Mean Teacher的具体实现方法

作者提出对模型的权重而不是预测值进行平均来克服Temporal Ensembling的局限性,这样就可以在每一个训练步骤之后对学习到的信息进行整合,而不是在每一代之后。并且,因为权重平均改进了每一层的输出,而不仅仅是最高层的输出,所以最终的模型有着更好的中间层表示。

比起Temporal Ensembling,Mean Teacher的改变带来了两个优点:第一,越准确的目标标签使得学生和教师模型之间的反馈环循环更快,可获得更好的测试准确性;第二,方法可以被用在大数据集和在线学习中去。

一致性损失(consistency cost) J J J 被定义为学生模型的预测(包含权重 θ \theta θ和噪声 η \eta η)和教师模型的预测(包含权重 θ ′ \theta' θ′和噪声 η ′ \eta' η′)之间的期望距离(这里作者使用的是均方误差MSE)。

Π \Pi Π model、Temporal Ensembling和Mean Teacher之间的不同就在于教师预测的生成方法。 Π \Pi Π model使用 θ ′ = θ \theta'=\theta θ′=θ,即教师模型完全复制学生模型;Temporal Ensembling使用对连续的每一代预测值的加权平均来近似 f ( x , θ ′ , η ′ ) f(x,\theta',\eta') f(x,θ′,η′);作者定义 θ t ′ \theta_t' θt′来表示第 t t t个训练步骤的权重,它是连续的每一代的 θ \theta θ权重的指数滑动平均(EMA)

这里的 α \alpha α是一个超参数'平滑系数’。
另外一点不同是, Π \Pi Π model会对 θ ′ \theta' θ′进行训练,而Temporal Ensembling和Mean Teacher会在优化时把它视为常数。


Mean Teacher的整体框架如下图所示:

对一幅有标记的输入图像来说,它会分别被送入学生模型和教师模型中去,两个模型会分别对输入图像添加噪声 η \eta η和 η ′ \eta' η′。学生模型的输出会与真实的标签一起计算分类损失,并与教师模型的输出一起计算一致性损失,最后将这两部分损失通过加权和合并在一起。之后通过梯度下降法更新学生模型,通过EMA来更新教师模型。

对于无标记的样本来说,整个过程是类似的,唯一不同在于无标记样本的训练过程没有分类损失。

(0)

相关推荐

  • R语言Rstan概率编程规划MCMC采样的贝叶斯模型简介

    原文http://tecdat.cn/?p=3234概率编程使我们能够实现统计模型,而无需担心技术细节.它对基于MCMC采样的贝叶斯模型特别有用.简介RStan是贝叶斯推理的C ++库.它基于No-U ...

  • 【图像分类】 标签噪声对分类性能会有什么样的影响?

    不同类型的噪声会对模型的分类性能产生什么样的影响呢,让我们一同进行实验,来探索那暗中作祟的标签噪声! 作者&编辑 | 郭冰洋 1 简介 在数据集制作过程中,由于主观.客观的原因,会导致标签噪声 ...

  • 赛尔笔记 | 自然语言处理领域的数据增广方法

    作者:哈工大SCIR 李博涵 1.摘要 本文介绍自然语言处理领域的数据增广方法.数据增广(Data Augmentation,也有人将Data Augmentation翻译为"数据增强&qu ...

  • Python使用神经网络进行简单文本分类

    原文链接:http://tecdat.cn/?p=8613 深度学习无处不在.在本文中,我们将使用Keras进行文本分类. 准备数据集 出于演示目的,我们将使用  20个新闻组  数据集.数据分为20 ...

  • 小样本学习及其在美团场景中的应用

    美团的各个业务有着丰富的NLP场景,而这些场景中模型的构建需要很多的标注资源,成本很高.小样本学习致力于在数据资源稀少的情况下训练出比较好的模型.本文从主动学习.数据增强.半监督学习.领域迁移.集成学 ...

  • 模型融合方法最全总结!

    本文是模型融合的经验方法总结.包含了投票法.平均法.排序法.Stacking 和 Blending. 一.背景 之前有段时间打数据挖掘类比赛,看到很多选手用模型融合的技巧,特别是比赛后期的时候,很多选 ...

  • 学习笔记|论文不是表达观点然后提供论据,也不是学术研究的附属

        本文为科研写作研究所编辑部原创. 一.什么是论文? 在以往的观念中,论文是各个学术领域的研究和描述学术研究成果的文章,其实这是非常片面的. 首先,从论文写作与学术研究之间的关系来看,论文不是学 ...

  • 学习笔记|论文关键词的类型与提取方法

        本文为科研写作研究所编辑部原创. 目前,仍有很多人认为,从论文题目.正文.小标题部分选取3-5个词语,便可组成关键词.严格来说,这是一种错误的观念与行为,因为他们从未深入思考过关键词究竟应该是 ...

  • 一则公报案例学习笔记:对修改股东出资期限应否适用资本多数决规则的思考|审判研究

    一.问题的提出 2021年第3期<最高人民法院公报案例>刊登了鸿大(上海)投资管理有限公司与姚锦城公司决议纠纷上诉案,裁判要旨为:"公司股东滥用控股地位,以多数决方式通过修改出资 ...

  • JAVA多线程学习笔记整理

    多线程: 三种创建方法 继承Thread类,以线程运行内容重写run方法,创建Thread对象并用start方法启动该线程. (匿名内部类) (Lambda表达式) 实现Runable接口,以线程运行 ...

  • 周哥学习笔记(2021.5.8)

    心理界限存在的意义,正是为了帮助人们控制情绪进入的量,不至于太过冷漠或太过投入,让我们保持一个合适的距离与外界互动. 人没有办法只通过吸收变得更美好和丰富,它必须通过大胆的碰撞和创造.如果不能保持足够 ...

  • 【学习笔记】控制角色移动的N种方法,但都离不开重复执行

    [学习笔记]控制角色移动的N种方法,但都离不开重复执行 今天我们讲一下控制角色移动的多种方法,因为缺少操作实例,希望课下同学们结合例子好好练习. 首先,我们说一下控制角色移动的多种方法.最比较常见的就 ...

  • 胡希恕伤寒论学习笔记——42

    42.太阳病,外证未解,脉浮弱者,当以汗解,宜桂枝汤. 字面意思是说:太阳病,外证依然存在,脉是浮弱的,治疗上依然需要通过出汗的方法,这时应该用桂枝汤一类的方剂. "宜"字说明不是 ...

  • 量柱擒涨停 - 量柱战法学习笔记(2)

    四.倍量战术 1.倍量的理解 [形态特征]:与前一个交易日比较高出1倍或1倍以上,就是倍量(4倍以上为发烧柱) ; [本质特征]:体现主力强势态度,主动(倍量阳/阴)买/卖盘吸筹坚决; [位置性质]: ...

  • 胡希恕伤寒论学习笔记——43

    43.太阳病,下之微喘者,表未解故也,桂枝加厚朴杏子汤主之. 桂枝加厚朴杏子汤方 桂枝三两 芍药三两 厚朴二两(炙,去皮) 杏仁五十枚(去皮尖)甘草二两(炙) 生姜三两(切)大枣十二枚(掰) 上七味, ...