BigNAS: 一次学习，各种尺寸小模型应有尽有

2024-07-29 01:32:00

现在，在网络结构搜索上，为了效果和速度，大家倾向于一次性的训练一个总模型，比如上面文章列表中的Darts和ENAS。然后再从总模型上采样得到符合条件的最优子模型。之后再重新训练、微调或者其他办法进行处理。

在得到总模型后，后续生成子模型后的处理比较耗时，给整个流程增加了额外的计算量和复杂度。BigNAS的出现则解决了这一问题，使得在大模型训练完成后，可以不用后续处理，直接生成各种尺寸的子模型就能达到最优的效果。

以下是三种从总模型到子模型的方法，其中，左图是得到总模型后，采样或者用某种策略得到子模型，然后再进行重新训练。中图则是得到总模型后，进行蒸馏，压缩得到各种各样的子模型。右图则是本文提出的方法，直接一步到位，训练得到总模型，然后总模型生成能够直接使用的子模型。

要做成这个事情，就需要在训练总模型的时候，能够同时将总模型中能够采样出来的大模型和小模型训练好，注意，此时大模型和小模型是有参数共享的。

这个问题很难，难在什么地方？比如：

如果没有正确的初始化，损失函数会爆炸。
步调不一致：小模型还没训练好，大模型可能已经过拟合了。
大模型更倾向于在训练数据集上过拟合，而小模型一般不会。

BigNAS则针对这些问题提出了很多改进的手段。总体来说，生成子模型需要两步：

训练得到一个总模型，从这个总模型中可以通过采样，切片等方式生成直接可用的子模型。
对于一定的资源限制条件，在总模型上从粗粒度到细粒度的进行筛选，得到符合条件的最好模型。

训练总模型

在训练总模型的时候，使用了如下技巧：

三明治法则

在训练的时候，从总模型中采样出最大模型，最小模型以及随机的N个模型（实验中N=2）。然后在几个模型上分别训练得到梯度，梯度进行聚合再更新总模型。

在这里，总模型大小是由输入图像大小、模型宽度、模型深度、核大小等参数决定的；每个参数都有自己的值集合，比如输入图像大小就是从[128, 196, 256, 384]中任选一个值。最小模型就是指最小的输入图像，最浅最窄的模型等等。通过这种方式，使得总模型中的大小模型都被训练了。

原地蒸馏

在训练的过程中，最大模型的损失是和ground truth去计算，其他小模型的损失则是和大模型预测的soft Label去计算，只用蒸馏的损失。此时注意，给大模型和小模型的输入，需要是图像中的同一个patch。用了原地蒸馏后，模型效果增加了0.3%。

初始化

在训练过程中，发现训练非常不稳定，将学习率降低到30%后，可以收敛，但是最后top-1的准确率低1%。

于是采用了如下手段，鉴于我们训练的模型都是残差网络，所以我们在这里会通过设置残差网络中每个block的最后的Batch Normalizaiton的系数γ=0，来确保经过残差网络的block后，方差不变。这个技巧在文献[2]中被提出，在它们那里只是有了提升，而在BigNAS里确实必需。

收敛行为

在实验中，发现大模型和小模型的收敛行为很不一致，大模型过拟合了小模型才刚刚收敛，如下图左。

为了解决这个问题，对学习率进行了改进，将其变为指数衰减+常量结尾，即最后的学习率是一个常量，常量值是最初值的5%。如上图右。有了更大的学习率后，大模型会在最优解上左右摇摆，但不会过拟合，小模型会加快收敛。从而解决这个问题。

正则化

一般来说，大模型容易过拟合而小模型不会，所以，我们需要将应对过拟合的手段加在大模型上而小模型不用，这样就增大了复杂度，因为大模型和小模型是共享参数的。

但是，BigNAS中采用了一种简单但有效的方法，即只对最大的子模型做正则化。采用的手段就是dropout和权重衰减。

批归一化校准

批归一化的统计参数并没有被累积，因为训练阶段是多模型训练，所以这些统计值的定义有问题。在模型训练结束后，会重新对BN的统计量做校准，此时并不需要重新训练模型

从粗到细的结构选择

给定计算资源的限制后，需要从总模型中找到最优的子模型。在这个选择过程中，首先定义一个受限的参数集合，然后评估这个首先参数中所有子模型得到benchmark，这是粗粒度选择。

在得到benchmark后，定义一个更加细粒度的参数集合，从上面粗粒度过程中得到的最好模型上做参数选择的更新。

最后，选定参数后，直接使用总模型里的参数初始化，得到网络结构。这个过程不需要重新训练。

实验

实验使用的搜索空间如下，这个空间基于MobileNetV2。

得到的结果如下，可以看到，在每个参数量级上，BigNAS都能得到最好的结果。

初始化的不同带来的模型收敛的不同，结果如下，左侧为小模型，右侧为大模型。这张图是模型训练开始不久后的。

同样的，如果关注模型最后的结果，如下图，可见，使用新的初始化方法+原来的学习率，可以学的更快更好。

学习率加上恒定结尾后，曲线如下，可见，大模型和小模型的训练步调变的一致了。

正则化的影响如下:

总结与思考

勤思考，多提问是Engineer的良好品德。

在训练过程中需要从总模型中采样小模型，这个步骤需要对图做修改，但是TPU上的图在训练过程中是不允许修改的，那么如何实现呢？

参考文献

[1]. Yu, Jiahui, et al. 'Bignas: Scaling up neural architecture search with big single-stage models.' arXiv preprint arXiv:2003.11142 (2020).
[2]. Goyal, Priya, et al. 'Accurate, large minibatch sgd: Training imagenet in 1 hour.' arXiv preprint arXiv:1706.02677 (2017).

RealFormer：把残差转移到Attention矩阵上面去

PaperWeekly 原创 · 作者|苏剑林单位|追一科技研究方向|NLP.神经网络大家知道 Layer Normalization 是 Transformer 模型的重要组成之一,它的用法有 ...
仅480块GPU搞出万亿参数大模型！★★★达摩院3个月打造，出手即商用

不要6000张GPU!不要2000张TPU! 只要480,万亿参数大模型"抱回家"! 还没完,更惊艳的在后边. 同为万亿"体量",能耗降低超八成,效率还能提升1 ...
大模型的未来在哪？

自2018年谷歌发布BERT以来,预训练大模型经过三年的发展,以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集.2020年OpenAI发布的NLP大模型GPT-3,实现了千亿级数据参数. ...
2457亿参数！全球最大AI巨量模型「源1.0」发布，中国做出了自己的GPT-3

新智元报道编辑:好困 yaxin [新智元导读]古代文人,或一觞一咏,畅叙幽情,或风乎舞雩,咏而归.「吟诗作对」成为他们的标配.刚刚,全球最大人工智能巨量模型「源1.0」发布,能赋诗作词,比 ...
Facebook最新力作FBNetV3来了！相比ResNeSt提速5倍，精度不输EfficientNet

加入极市专业CV交流群,与 10000+来自港科大.北大.清华.中科院.CMU.腾讯.百度等名校名企视觉开发者互动交流! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注 ...
“未来技术”人工智能算力网络面世：多模态的最佳“伴行者”？

用文字描述"一个女人打着红色的雨伞在路上走",系统呈现出一张唯美的街拍: 有一张飞机起飞的照片,想配上一段适合的声音,上传图片后,一段发动机呼啸声的音频播放出来: 把淅淅沥沥的下雨 ...
【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望

大家好,这是专栏<AI不惑境>的第十一篇文章,讲述知识蒸馏相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程,那 ...
ICLR 2021 | SEED：自监督蒸馏学习，显著提升小模型性能！

重磅干货,第一时间送达本文转载自:AIWalker 论文:https://arxiv.org/abs/2101.04731 注:公众号后台回复:SEED.即可获取本文下载链接. 该文是亚利桑那州立大 ...
一键收集几百份文件，还能自动分类存档！马上学习 2 个小技巧>>

一键收集几百份文件，还能自动分类存档！马上学习 2 个小技巧>>
孩子的思维能力训练从学习这9种模型入手

思维能力:指人们在工作.学习.生活中每逢遇到问题,总要'想一想',这种'想',就是思维.它是通过分析.综合.概括.抽象.比较.具体化和系统化等一系列过程,对感性材料进行加工并转化为理性认识及解决问题的 ...
让某个复旦大学教授学习一下：小牧·长久手之战是什么？

前些日子,某个复旦大学的"日本史"教授在B站上翻了车.这位教授有关日本战国史的讲座漏洞百出,水平甚至都比不上游戏玩家,而其中一个硬伤就是冯姓教授对小牧·长久手之战的错误介绍.那么让 ...
红色律动——庄永之党史学习教育诗词小辑

红色律动党史学习教育诗词专辑 □庄永之 [编者按]庄永之近年来发表的部分诗词作品辑录推送,供大家学习讨论. [感悟百年峥嵘](5首) (一)七律·致敬2021 今年此刻诉衷肠, 平语铿锵意蕴长. 遍 ...
小学语文知识点汇总！可以少买学习资料了小...

小学语文知识点汇总!可以少买学习资料了小学语文知识点大全,整理不易背熟了,对文学常识也很有帮助小学语文1-6年必备的知识点熟练掌握也可以运用到写作当中,至少能加5分内容较多,完整的已经做进了 ...
你真懂得学习吗？ / 小约翰

" 真正的学习是一种很神圣的行为,是一种敬拜. " 文 | 小约翰儒家之渐修 <论语>开篇就讲学习:"学而时习之,不亦乐乎?"儒家为什么这么重视学 ...
占卜学习 | 道传小六壬速断大全

小六壬,也称为诸葛亮马前课,是古代中国占卜法之一,俗称报时起课法.小六壬是中国传统历法中的一种注文,用以标示每日的凶吉. 小六壬民间传得神而又神,是断事最快的预测方法,当即立断,一针见血,一语中的.非 ...
高中数学解题宝典，高考数学小模型

高中数学解题宝典，高考数学小模型

BigNAS: 一次学习，各种尺寸小模型应有尽有 ​