从Label Smoothing和Knowledge Distillation理解Soft Labe...

2024-05-03 03:56:46

及时获取最优质的CV内容

深度学习领域中，通常将数据标注为hard label，但事实上同一个数据包含不同类别的信息，直接标注为hard label会导致大量信息的损失，进而影响最终模型取得的效果。本文首先探讨一下hard label和soft label之间的关系，然后介绍一下如何用可靠的方法得到蕴含更多信息的soft label，其中主要包含Label Smoothing和Knowledge Distillation两种经典方法。

Hard Label vs Soft Label

hard label更容易标注，但是会丢失类内、类间的关联，并且引入噪声。

soft label给模型带来更强的泛化能力，携带更多的信息，对噪声更加鲁棒，但是获取难度大。

Label Smoothing

Softmax Cross Entropy不仅可以做分类任务（目标为one-hot label），还可以做回归任务（目标为soft label）。设网络输出的softmax prob为p，soft label为q，那Softmax Cross Entropy定义为：

而Label Smoothing虽然仍是做分类任务，但其目标q从one-hot label变为soft label了，原来是1的位置变为，其他的原来是0的位置变为 , 通常取0.1。

InfoNCE的损失函数

InfoNCE可以拆分成两个部分，alignment和uniformity。

如上图所示，alignment部分只跟positive pair相关，希望positive pair的feature拉近，uniformity部分只跟negative pair相关，希望所有点的feature尽可能均匀分布在unit hypersphere上。

从softmax和InfoNCE损失函数上理解，把InoNCE公式的分母想象成soft label的所有位置相加，也就是最大值的那个位置可以看成是positive pair，其他位置都可以看成是negative pair，softmax的损失函数不是跟InfoNCE损失函数一模一样了吗，异曲同工！也就是说hard label可以认为只有positive pair，而soft label仍然保留negative pair。因此，soft label更容易避免退化解问题。

上图是sigmoid曲线。Softmax Cross Entropy 的loss曲线其实跟sigmoid类似，越靠近1的时候，loss曲线会越平缓，这里以sigmoid曲线图为例。

从softmax的损失函数曲线上理解，hard label监督下，由于softmax的作用，one-hot的最大值位置无限往1进行优化，但是永远不可能等于1，从上图可知优化到达一定程度时，优化效率就会很低，到达饱和区。而soft label可以保证优化过程始终处于优化效率最高的中间区域，避免进入饱和区。

Knowledge Distillation

knowledge distillation相比于label smoothing，最主要的差别在于，知识蒸馏的soft label是通过网络推理得到的，而label smoothing的soft label是人为设置的。

原始训练模型的做法是让模型的softmax分布与真实标签进行匹配，而知识蒸馏方法是让student模型与teacher模型的softmax分布进行匹配。直观来看，后者比前者具有这样一个优势：经过训练后的原模型，其softmax分布包含有一定的知识——真实标签只能告诉我们，某个图像样本是一辆宝马，不是一辆垃圾车，也不是一颗萝卜；而经过训练的softmax可能会告诉我们，它最可能是一辆宝马，不大可能是一辆垃圾车，但绝不可能是一颗萝卜。

知识蒸馏得到的soft label相当于对数据集的有效信息进行了统计，保留了类间的关联信息，剔除部分无效的冗余信息。相比于label smoothing，模型在数据集上训练得到的soft label更加可靠。

Reference

https://zhuanlan.zhihu.com/p/302843504

https://zhuanlan.zhihu.com/p/90049906

When Does Label Smoothing Help?

Distilling the Knowledge in a Neural Network

△开白/投稿/合作: 昵称-目的

△交流群: 昵称-学校/公司-方向

【技术综述】一文道尽softmax loss及其变种

本文首发于龙鹏的知乎专栏<深度学习模型训练经验与代码剖析>https://zhuanlan.zhihu.com/c_151876233 今天来说说softmax loss以及它的变种 01 ...
【BERT】BERT模型压缩技术概览

由于BERT参数众多,模型庞大,推理速度较慢,在一些实时性要求较高.计算资源受限的场景,其应用会受到限制.因此,讨论如何在不过多的损失BERT性能的条件下,对BERT进行模型压缩,是一个非常有现实意义 ...
Softmax 函数和它的误解

重磅干货,第一时间送达 AI算法与图像处理考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作.分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Py ...
【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望

大家好,这是专栏<AI不惑境>的第十一篇文章,讲述知识蒸馏相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程,那 ...
目标检测算法优化技巧：Bag of Freebies for Training Object Detection

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
斯坦福大学最新论文|知识图卷积神经网络在推荐系统中的应用

推荐系统广泛应用于互联网应用和服务中.传统的协同过滤推荐算法通常会遇到用户-物品交互的稀疏性问题和冷启动问题,可以通过引入额外的信息来解决,如用户/物品属性信息和社交网络.近年来,为了解决上述问题,一 ...
R语言中实现广义相加模型GAM和普通最小二乘(OLS)回归

原文链接:http://tecdat.cn/?p=20882 1导言这篇文章探讨了为什么使用广义相加模型是一个不错的选择.为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择 ...
全国人大常委会关于《中华人民共和国刑法》第九章渎职罪主体适用问题的解释（附：理解与适用）

☞[招募律师站长]☜ 全国人民代表大会常务委员会关于<中华人民共和国刑法>第九章渎职罪主体适用问题的解释 (2002年12月28日通过) 全国人大常委会根据司法实践中遇到的情况,讨论了刑法 ...
体谅与理解

人生的路上,如果懂得体谅,懂得理解,懂得宽容,日子就会很温馨,也会很安宁. 人生的路上,如果缺少体谅,不能理解,没有谦让,日子就会很糟糕,越过越烦恼. 生活中的很多烦恼,就是源于我们不能够体谅,过分在 ...
色盲患者看到的世界永远黑白的，他们是无法理解世界的真实色彩的

哲学那点事(五)--我能认知什么?色盲患者看到的世界永远黑白的,他们是无法理解世界的真实色彩的色盲是由于视网膜视锥细胞中的光敏色素异常或不全所导致的色觉紊乱,从而缺乏辨别一种或多种颜色的能力.色盲又分 ...
特级教师：初中阅读理解33个答题公式 60篇训练题，挑战1分不扣

语文考试中,同学们普遍认为最难的不是作文,而是阅读理解.初中语文阅读理解篇幅大,内容深奥.要么不知道怎么作答,要么答了很多,却不在踩分点上,自我感觉良好,但得分却少得可怜. 而且在考试中,因为阅读理解 ...
古人是这样藏锋的，大多数人理解错了！

对于书法的初学者,想必在书店市场上应该看到许多关于书法笔法的论述,很多教材都在强调藏锋的重要性,起笔要逆锋藏锋,收笔也要回锋一下,特别是初学颜真卿楷书的人,老师一般会让学生逆锋起笔,如下图所示: 这种 ...
电路模拟器如何帮助您理解任何电路

电路模拟器是一种"观察"电路功能的工具.电子设备不容易用肉眼检查,如果你打开一个音频放大器,如果你没有设计和建造电子电路的经验,就很难判断它是做什么的. 模拟理解电路电路模拟器使 ...
法考过关经验贴|六字箴言“基础”、“理解”与“计划”

法考并不是高考,分数高低对个人来说影响并不大,因此怎样用最少的时间与精力达到目标就是最重要的课题.我的法考经历可以总结为每天学一点,一学小半年:主要经验是"基础"."理解 ...
“本是青灯不归客，却因浊酒留风尘，星光不问赶路人，岁月不负有心人”，你是怎么理解的？

这是网络爆火的诗句,很多人都喜欢它!它是人生逆旅中默默赶路人的心境,留给世人无限况味的的人生禅意.或许有些人不以为然,而当你仔细品味诗中的意境和禅意时,突然就蓦然释怀了,人活一世,一生境况概莫如是. ...
怎么理解单点对焦和多点对焦？9点、21点、39点对焦有什么区别？

相机中的单点对焦.9点.21点.39点对焦这一块内容,属于自动对焦区域的内容,初学者对这块内容不理解,主要是因为没有把自动对焦区域和自动对焦模式这两块内容结合起来看.在实际拍摄过程中,一般是先根据拍摄 ...

从Label Smoothing和Knowledge Distillation理解Soft Labe...

Hard Label vs Soft Label

Label Smoothing

Knowledge Distillation

相关推荐