TinyBert: 蒸馏集大成者！！

2024-06-24 07:23:16

大家好，我是DASOU，今天说一下 TinyBert；

TinyBert 主要掌握两个核心点：

提出了对基于 transformer 的模型的蒸馏方式：Transformer distillation；
提出了两阶段学习框架：在预训练和具体任务微调阶段都进行了 Transformer distillation（两阶段有略微不同）；

下面对这两个核心点进行阐述。

1. Transformer distillation

1.1整体架构

整体架构如下：

Transformer_distillation架构图

Bert不严谨的来划分，可以分为三个部分：词向量输入层，中间的TRM层，尾端的预测输出层。

在这个论文里，作者把词向量输入层和中间的TRM层统一称之为中间层，大家读的时候需要注意哈。

Bert的不同层代表了学习到了不同的知识，所以针对不同的层，设定不同的损失函数，让学生网络向老师网络靠近，如下：

ebedding层的输出
多头注意力层的注意力矩阵和隐层的输出
预测层的输出

1.2 Transformer 基础知识：

注意力层：

注意力层

多头注意力层：

多头注意力层

前馈神经网路：

前馈神经网络

1.3 Transformer 的蒸馏

对 Transformer的蒸馏分为两个部分：一个是注意力层矩阵的蒸馏，一个是前馈神经网络输出的蒸馏。

注意力层矩阵蒸馏的损失函数：

注意力层矩阵蒸馏

这里注意两个细节点：

一个是使用的是MSE；

还有一个是，使用的没有归一化的注意力矩阵，见(1)，而不是softmax之后的。原因是实验证明这样能够更快的收敛而且效果会更好。

前馈神经网络蒸馏的损失函数

前馈神经网络蒸馏

两个细节点：

第一仍然使用的是MSE.

第二个细节点是注意，学生网路的隐层输出乘以了一个权重矩阵，这样的原因是学生网络的隐层维度和老师网络的隐层维度不一定相同。

所以如果直接计算MSE是不行的，这个权重矩阵也是在训练过程中学习的。

写到这里提一点，其实这里也可以看出来为什么tinybert的初始化没有采用类似PKD这种，而是使用GD过程进行蒸馏学习。

因为我们的tinybert 在减少层数的同时也减少了宽度（隐层的输出维度），如果采用PKD这种形式，学生网络的维度和老师网络的维度对不上，是不能初始化的。

词向量输入层的蒸馏：

词向量输入层蒸馏

预测层输出蒸馏：

预测层输出蒸馏

1.4 总体蒸馏损失函数

总体蒸馏损失函数

2. 两阶段蒸馏

2.1 整体架构

整体架构如图：

两阶段蒸馏

2.2 为什么需要GD:

说一下我自己的理解哈，我觉得有两个原因：

首先，就是上文说到的，tinybert不仅降低了层数，也降低了维度，所以学生网络和老师网络的维度是不符的，所以PKD这种初始化方式不太行。

其次，一般来说，比如PKD，学生网络会使用老师网络的部分层进行初始化。这个从直觉上来说，就不太对。

老师网络12层，学到的是文本的全部信息。学生网络是6层，如果使用老师的12层的前6层进行初始化，这个操作相当于认为这前6层代表了文本的全部信息。

当然，对于学生网络，还会在具体任务上微调。这里只是说这个初始化方式不太严谨。

Tiny bert的初始化方式很有意思，也是用了蒸馏的方式。

老师网络是没有经过在具体任务进行过微调的Bert网络，然后在大规模无监督数据集上，进行Transformer distillation。当然这里的蒸馏就没有预测输出层的蒸馏，翻看附录，发现这里只是中间层的蒸馏。

简单总结一下，这个阶段，使用一个预训练好的Bert（尚未微调）进行了3epochs的 distillation；

2.3 TD：

TD就是针对具体任务进行蒸馏。

核心点：先进行中间层（包含embedding层）的蒸馏，再去做输出层的蒸馏。

老师网络是一个微调好的Bert，学生网络使用GD之后的tinybert，对老师网络进行TD蒸馏。

TD过程是，先在数据增强之后的数据上进行中间层的蒸馏-10eopchs，learning rate 5e-5；然后预测层的蒸馏3epochs，learning rate 3e-5.

3. 数据增强

在具体任务数据上进行微调的时候，进行了数据增强。

(感觉怪怪的)

两个细节点：

对于 single-piece word 通过Bert找到当前mask词最相近的M个单词；对于 multiple sub-word pieces 使用Glove和Consine找到最相近的M个词
通过概率P来决定是否替换当前的词为替换词。
对任务数据集中的所有文本数据做上述操作，持续N次。

伪代码如下：

tinybert数据zengqiang

4. 实验效果

其实我最关心的一个点就是，数据增强起到了多大的作用。

作者确实也做了实验，如下，数据增强作用还是很大的：

数据增强的作用

我比较想知道的是，在和PKD同等模型架构下，两者的比较，很遗憾，作者好像并没有做类似的实验(或者我没发现)。

这里的tinybert参数如下：

the number of layers M=4, the hidden size d 0=312, the feedforward/filter size d 0 i=1200 and the head number h=12.

5. 简单总结

先说一下，我读完论文学到的东西：

首先是transformer层蒸馏是如何涉及到的损失函数：

注意力矩阵和前馈神经层使用mse；
蒸馏的时候注意力矩阵使用未归一化
维度不同使用权重矩阵进行转化

其次，维度不同导致不能从老师Bert初始化。GD过程为了解决这个问题，直接使用学生网络的架构从老师网络蒸馏一个就可以，这里并不是重新学一个学生网络。

还有就是数据增强，感觉tinyebert的数据增强还是比较简陋的，也比较牵强，而且是针对英文的方法。

TD过程，对不同的层的蒸馏是分开进行的，先进行的中间层的蒸馏，然后是进行的输出层的蒸馏，输出层使用的是Soft没有使用hard。

这个分过程蒸馏很有意思，之前没注意到这个细节点。在腾讯的文章中看到这样一句话：

并且实验中，softmax cross-entropy loss 容易发生不收敛的情况，把 softmax 交叉熵改成 MSE, 收敛效果变好，但泛化效果变差。这是因为使用 softmax cross-entropy 需要学到整个概率分布，更难收敛，因为拟合了 teacher BERT 的概率分布，有更强的泛化性。MSE 对极值敏感，收敛的更快，但泛化效果不如前者。

是有道理的，积累一下这个知识点。

参考资料

[1]

TINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING: https://openreview.net/pdf?id=rJx0Q6EFPB

【BERT】BERT模型压缩技术概览

由于BERT参数众多,模型庞大,推理速度较慢,在一些实时性要求较高.计算资源受限的场景,其应用会受到限制.因此,讨论如何在不过多的损失BERT性能的条件下,对BERT进行模型压缩,是一个非常有现实意义 ...
2020年深度学习技术发展综述

来源:无人系统技术作者:王亚珅摘要:对深度学习领域的研究进行综合评述,并对其进一步发展方向进行分析.首先分析围绕注意力机制的深度学习技术最新研究成果,以及在自然语言处理领域取得突破性进展的巨型预训 ...
一文理解 Transformer 的工作原理

概述自然语言处理中的 Transformer 模型真正改变了我们处理文本数据的方式. Transformer 是最近自然语言处理发展的幕后推手,包括 Google 的 BERT. 了解 Tran ...
AAAI 2021最佳论文Runners Up！Transformer的归因探索！

本文转载自:炼丹笔记作者:一元,四品炼丹师 Self-Attention Attribution: Interpreting Information Interactions Inside Tran ...
可交互的 Attention 可视化工具！我的Transformer可解释性有救了？

视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的.我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的说到深度神经网络的可视化,最经典的莫过于的CNN密恐图了: ...
(12条消息) 一文读懂BERT(原理篇)

一文读懂BERT(原理篇) 2018年的10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Langua ...
高瓴资本10亿押注，CDMO龙二，有望成为CXO行业集大成者

"这是价值事务所的第646篇原创文章" 通过<价值事务所>过去两周的介绍,想必大家对代工厂,尤其是医药外包行业有了深刻的认识. 所长一直坚信,医疗行业,我国必出全球 ...
比药明系还猛，它最有希望成为全球CXO唯一的集大成者点赞了的2021发财，关注的年年发大财！微信...

本文是<价值事务所>的原创文章第645篇. 每次看到药明系被一拆为二(药明生物+药明康德),甚至后面二拆为三(药明康德里面又拆了个药明巨诺出来),所长就很无奈,不拆的药明系宇宙无敌,肉眼可 ...
深度学习中的知识蒸馏技术(下)

本文概览: 写在前面: 这是一篇介绍知识蒸馏在推荐系统中应用的文章,关于知识蒸馏理论基础的详细介绍,请看上篇文章: 1. 背景介绍 1.1 简述推荐系统架构如果从传统角度来看实际的工业推荐系统,粗略 ...
20世纪书坛草书集大成者！

说起草书,很多人第一想法是,草书艺术性很高,但是太难掌控了,普通书法爱好者根本驾驭不了. 其实草书并不会像大家想象中那般"恐怖",只是没有找到合适的学习草书的途径罢了. 要知道草书 ...
深度学习中的知识蒸馏技术

本文概览: 1. 知识蒸馏介绍 1.1 什么是知识蒸馏? 在化学中,蒸馏是一种有效的分离不同沸点组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的.化学蒸馏条件:( ...
中国有画学以来集大成者郑午昌100幅作品欣赏

郑午昌(1894年--1952年),名昶,以字行,号弱龛,别号双柳外史.丝鬓散人.墨鸳鸯楼主.且以居士.午社词人等,浙江人,斋名鹿胎仙馆.他是民国时期才华横溢的书画艺术家.书画鉴定家.书画收藏家.美术 ...
法家集大成者“商鞅”，奠定了秦朝的政治基础，却也禁锢了中国

贾谊在<过秦论>里说秦始皇"奋六世之余烈",这里的六世,指的就是自秦孝公以下的六位国君.这六位国君,就是大家常说的"秦国六代名君",也即为秦始皇统一 ...
馏、馏分、蒸馏，烷烃，粘温特性，粘度指数，环烷烃，芳烃，埃米

牛顿12.馏.馏分.蒸馏,烷烃,粘温特性,粘度指数,环烷烃,芳烃,埃米 -粘.度:见<牛顿7>- 在工业上有时用特定形式的粘度计来测定特定条件的粘度.如炼油工业中常用恩氏粘度(或恩格拉粘度 ...
583 膜蒸馏论文摘选-3

[1]朱春燕,等.膜蒸馏过程传递机理研究进展(Ⅲ)真空膜蒸馏[J].膜科学与技术,2009 [2]吴莉莉, 等.超声波强化膜蒸馏研究进展[J].化工进展,2009 [3]郑凯, 等.膜蒸馏法分离乙醇水 ...