【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习

2024-07-31 02:23:18

1 什么是模型蒸馏

一般地，大模型往往是单个复杂网络或者是若干网络的集合，拥有良好的性能和泛化能力，而小模型因为网络规模较小，表达能力有限。利用大模型学习到的知识去指导小模型训练，使得小模型具有与大模型相当的性能，但是参数数量大幅降低，从而可以实现模型压缩与加速，就是知识蒸馏与迁移学习在模型优化中的应用。

Hinton等人最早在文章“Distilling the knowledge in a neural network”中提出了知识蒸馏这个概念，其核心思想是一旦复杂网络模型训练完成，便可以用另一种训练方法从复杂模型中提取出来更小的模型，因此知识蒸馏框架通常包含了一个大模型(被称为teacher模型)，和一个小模型(被称为student模型)。

2 优化目标驱动的知识蒸馏框架

Hinton等人提出的框架是在模型最后的预测端，让student模型学习到与teacher模型的知识，这可以称之为直接使用优化目标进行驱动的框架，也是最简单最直接的框架，它不关心中间的学习过程，类似的还有ProjectionNet等。

3 特征匹配的知识蒸馏框架

目标驱动型的知识蒸馏框架的具体细节是难以控制的，会让训练变得不稳定且缓慢。一种更直观的方式是将teacher模型和student模型的特征进行约束，从而保证student模型确实继承了teacher模型的知识，其中一个典型代表就是FitNets，FitNets将比较浅而宽的Teacher模型的知识迁移到更窄更深的Student模型上。

4 没有教师模型的知识蒸馏

一般知识蒸馏框架都需要包括一个Teacher模型和一个Student模型，而Deep mutual learning则没有Teacher模型，它通过多个小模型进行协同训练，这也是非常有研究意义的方向。

5 与其他框架的结合

在进行知识蒸馏时，我们通常假设teacher模型有更好的性能，而student模型是一个压缩版的模型，这不就是模型压缩吗？与模型剪枝，量化前后的模型对比是一样的。所以知识蒸馏也被用于与相关技术进行结合，apprentice框架是一个代表。

6 其他

总的来说，模型蒸馏有非常多的研究方向，包括：

(1) 优化目标驱动的知识蒸馏框架拓展。

(2) 基于特征匹配的知识蒸馏框架拓展。

(3) 不压缩模型，甚至训练更大模型的框架。

(4) 无教师模型的框架。

(5) 自动搜索的框架。

(6) 与其他模型压缩技术的结合。

(7) 其他。

以上内容，如果你不想自己学习，可以去我们知识星球的网络结构1000变板块—模型蒸馏板块阅读。

有三AI知识星球

知识星球是有三AI的付费内容社区，里面包括各领域的模型学习，数据集下载，公众号的付费图文原稿，技术总结PPT和视频，知识问答，书籍下载，项目推荐，线下活动等资源，了解详细请阅读以下文章：

【杂谈】有三AI知识星球一周年了！为什么公众号+星球才是完整的？

【杂谈】万万没想到，有三还有个保密的‘朋友圈’，那里面都在弄啥！

转载文章请后台联系

侵权必究

[腾讯]结合蒸馏和多任务学习的召回模型

[腾讯]结合蒸馏和多任务学习的召回模型
ECCV 2020 | 自监督任务辅助的知识蒸馏

本文介绍了一种利用自监督任务辅助知识蒸馏的方法:Knowledge Distillation Meets Self-Supervision [1]. 这篇文章(以下简称SSKD)来自香港中文大学和南洋 ...
大模型时代的AI之变与开发之根

自2018年谷歌发布Bert以来,预训练大模型以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集.随着产学研各界的深入研究,大模型在AI产学研各界的地位得到不断加强.到2021年,我们可以 ...
CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏

作者信息: 作者分别来自澳大利亚阿德莱德大学.微软亚洲研究院.北航.Keep公司.三星中国研究院,该文为第一作者Yifan Liu在微软亚洲研究院实习期间的工作. 该文研究了在语义分割模型的知识蒸馏中 ...
知识蒸馏与推荐系统

本文概览: 写在前面: 这是一篇介绍知识蒸馏在推荐系统中应用的文章,关于知识蒸馏理论基础的详细介绍,请看我的这篇文章: 深度学习中的知识蒸馏技术(上) 1. 背景介绍 1.1 简述推荐系统架构如果从 ...
【模型压缩系列】一：模型替换

bert问世以来,相关研究和改进如雨后春笋般涌现,预训练模型得到了飞速的发展,并在NLP很多任务中取得了统治地位.工业界也对此产生了浓厚的兴趣,各大公司纷纷试图在搜索.推荐.分类等领域中引入bert. ...
商汤推出SenseCore AI大装置，要冲破AI大规模落地的围城

对话商汤科技联合创始人:拆解商汤AI大装置的真招式. 作者 | 心缘编辑 | 漠影智东西7月9日报道,在2021世界人工智能大会上,商汤科技展示并正式推出其人工智能(AI)的集大成者--AI大 ...
“未来技术”人工智能算力网络面世：多模态的最佳“伴行者”？

用文字描述"一个女人打着红色的雨伞在路上走",系统呈现出一张唯美的街拍: 有一张飞机起飞的照片,想配上一段适合的声音,上传图片后,一段发动机呼啸声的音频播放出来: 把淅淅沥沥的下雨 ...
【星球知识卡片】人脸属性编辑都有哪些核心知识点，如何长期进行学习

【星球知识卡片】人脸属性编辑都有哪些核心知识点，如何长期进行学习
【星球知识卡片】模型量化的核心技术点有哪些，如何对其进行长期深入学习

【星球知识卡片】模型量化的核心技术点有哪些，如何对其进行长期深入学习
【星球知识卡片】图像和视频超分辨都有哪些核心技术，如何对其长期深入学习

【星球知识卡片】图像和视频超分辨都有哪些核心技术，如何对其长期深入学习
【星球知识卡片】模型压缩重要方向-动态模型，如何对其长期深入学习

【星球知识卡片】模型压缩重要方向-动态模型，如何对其长期深入学习
【星球知识卡片】图像风格化与翻译都有哪些核心技术，如何对其长期深入学习

【星球知识卡片】图像风格化与翻译都有哪些核心技术，如何对其长期深入学习
【星球知识卡片】AutoML都有哪些核心技术，如何对其进行长期深入学习

【星球知识卡片】AutoML都有哪些核心技术，如何对其进行长期深入学习
【星球知识卡片】图像生成都有哪些核心技术，如何对其进行长期深入学习

大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分图像生成的核心技术点. 作者&编辑 | 言有三 1 基本图像生成框架一个基本的图像生成框架包括判别器和生成器,其中生成器输入噪声向量,判 ...
【星球知识卡片】视频分类与行为识别有哪些核心技术，对其进行长期深入学习

【星球知识卡片】视频分类与行为识别有哪些核心技术，对其进行长期深入学习
【星球知识卡片】模型剪枝有哪些关键技术，如何对其进行长期深入学习

【星球知识卡片】模型剪枝有哪些关键技术，如何对其进行长期深入学习

【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习

相关推荐