【BERT】BERT模型压缩技术概览

2024-07-31 08:16:17

由于BERT参数众多，模型庞大，推理速度较慢，在一些实时性要求较高、计算资源受限的场景，其应用会受到限制。因此，讨论如何在不过多的损失BERT性能的条件下，对BERT进行模型压缩，是一个非常有现实意义的问题。

本文先介绍模型压缩的概念及常见方法；随后，对目前出现的BERT剪枝的技术做一个整体的介绍。在后面的文章中，挑选一些典型的例子再进行深度的介绍。

作者&编辑 | 小Dream哥

1 模型压缩

所谓模型压缩，就是在尽可能不改变模型效果的情况下，减少模型的尺寸，使得模型有更快的推理速度。

随着深度学习技术越来越多的得到应用，模型压缩越来越受到重视，因为当模型的准确度达到一定程度后，如何用更少的硬件成本去达到相同的效果，就变得很有价值；另一方面，随着深度学习模型变得越来越“大”，在很多涉及边缘计算的嵌入式设备中部署就变得困难，模型压缩就变成一个必须的事情。

目前，模型压缩主要有4种方法，包括如下：

1.parameter pruning and quantization

参数剪枝(parameter pruning)，顾名思义，就是对模型的参数进行删减；

量化(quantization)是一种通过降低数值精度来提高模型推理速度的方法，例如将通常的64位浮点型，转化为16位浮点型进行运算。

2.low-rank factorization

通过低秩因式分解，将参数矩阵分解成两个较小矩阵的乘积来逼近原始参数矩阵，降低模型的参数量，ALBERT中就用了这种方法。

3.transferred/compact convolutional filters

设计特殊结构的卷积滤波器以减少存储和计算的复杂度。

4.knowledge distillation

知识蒸馏，即先训练一个大模型得到较好的效果；再设计和训练一个小模型来获得与大模型相当的效果。

[1] Cheng Y , Wang D , Zhou P , et al. A Survey of Model Compression and Acceleration for Deep Neural Networks[J]. 2017.

[2] Cheng J , Wang P S , Gang L I , et al. Recent advances in efficient computation of deep convolutional neural networks[J]. Frontiers of Information Technology & Electronic Engineering, 2018, 19(01):64-77.

[3] Liu Z , Sun M , Zhou T , et al. Rethinking the Value of Network Pruning[J]. 2018.

[4] Frankle J , Carbin M . The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks[J]. 2018.

2 BERT模型压缩

BERT模型的参数量巨大，这导致几乎没有BERT或者 BERT-Large 模型可直接在GPU及智能手机上应用，因此模型压缩方法对于BERT的未来的应用前景非常有价值。下面介绍一些BERT模型压缩的工作，可作参考。

(1) BERT剪枝

去掉BERT中不必要的部分，剪枝的内容包括权重大小剪枝、注意力剪枝、网络层以及其他部分的剪枝等。还有一些方法也通过在训练期间采用正则化的方式来提升剪枝能力（layer dropout）。

BERT模型包括输入层（嵌入层），self-attention层，feed-forward等，针对BERT系列模型的结构，可采取的剪枝策略如下：

1）减少层数

在BERT模型的应用中，我们一般取第12层的hidden向量用于下游任务。可以根据不同的任务，接不同层进行finetune。

2）维度剪枝[1]

可以通过因式分解等方法，降低BERT隐藏层的维度，从而降低BERT的参数量。

3）Attention剪枝

在多头注意力中，每头维度是64，最终叠加注意力向量共768维。有研究[2]表明：在推理阶段，大部分头在被单独去掉的时候，效果不会损失太多；将某一层的头只保留1个，其余的头去掉，对效果基本不会有什么影响。

[1] Compressing BERT: Studying the Effects of Weight Pruning on Transfer Learning

[2] Are Sixteen Heads Really Better than One?

[3] Pruning a BERT-based Question Answering Model

[4] Reducing Transformer Depth on Demand with Structured Dropout

[5] Reweighted Proximal Pruning for Large-Scale Language Representation

2) BERT权重因子分解

通过低秩因式分解，将参数矩阵分解成两个较小矩阵的乘积来逼近原始参数矩阵，降低模型的参数量。最典型的就是ALBERT模型，其提出者认为，词向量只是记忆了相对少量的词语的信息，更多的语义和句法等信息时由隐藏层记忆的。因此，他们认为，词嵌入的维度可以不必与隐藏层的维度一致，可以通过降低词嵌入的维度的方式来减少参数量。

感兴趣的同学看这篇博文详细了解ALBERT的内容：

【NLP】ALBERT：更轻更快的NLP预训练模型

[1] Structured Pruning of Large Language Models

[2] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

3）BERT知识蒸馏

知识蒸馏的本质是让超大线下teacher模型来协助线上student模型的训练，本质上是一种超大模型的知识迁移过程。

对Bert的知识蒸馏，研究的是如何将一个大型网络的泛化能力，迁移到一个相对小型的网络，从而达到以下两个目标：

1) 不需要从零开始训练小模型；

2) 蒸馏学习得到的模型效果优于直接训练。

理论上来说，模型在训练的时候需要尽可能多的神经元连接，而一旦训练完成，其中的部分连接其实是冗余的，可以用一个相对紧凑的结构来代替。

[1] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

[2] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks

[3] Distilling Transformers into Simple Neural Networks with Unlabeled Transfer Data

[4] Attentive Student Meets Multi-Task Teacher: Improved Knowledge Distillation for Pretrained Models

[5] Patient Knowledge Distillation for BERT Model Compression

[6] TinyBERT: Distilling BERT for Natural Language Understanding

[7] MobileBERT: Task-Agnostic Compression of BERT by Progressive Knowledge Transfer

4）BERT量化

量化（quantization）是一种通过降低数值精度来提高模型推理速度的方法，例如将通常的64位浮点型，转化为8位浮点型进行运算，BERT的量化的基本理论也是如此。

Q-BERT模型微调后的 BERT_BASE 模型同样包含三部分：嵌入、基于 Transformer 的编码器层、输出层。BERT_BASE 模型不同层的参数大小为：嵌入 91MB、编码器 325MB、输出 0.01MB，减少了非常多。

量化过程更多涉及具体的工程化问题，想了解同学可以参考如下的论文了解。

[1] Q8BERT: Quantized 8Bit BERT

[2] Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

总结

BERT模型在多种下游任务表现优异，但庞大的模型结果也带来了训练及推理速度过慢的问题，难以满足对实时响应速度要求高的场景，模型轻量化就显得非常重要。

后续我们分别详细介绍不同类型的BERT模型压缩方法。

下期预告：暂无

知识星球推荐

扫描上面的二维码，就可以加入我们的星球，助你成长为一名合格的自然语言处理算法工程师。

知识星球主要有以下内容：

(1) 聊天机器人。

(2) 知识图谱。

(3) NLP预训练模型。

转载文章请后台联系

侵权必究

YOLOv3通道+层剪枝，参数压缩98%，砍掉48个层，提速2倍！

尽管目标检测新算法层出不穷,但在实际工程项目中不少52CV群友还是念着YOLOv3的好.将其部署到边缘设备等时,模型剪枝是非常有必要的,毕竟有原始模型有239M的参数,剪枝后往往也能提速不少. 比如之 ...
NeurIPS 2021 Transformer部署难？北大&华为诺亚提出Vision Transformer的后训练量化方法

详细信息如下: 论文链接:https://arxiv.org/abs/2106.14156 项目链接:未开源导言: 最近,Transformer在各种计算机视觉应用中取得了不错的性能.与主流卷积神经 ...
如何迈向高效深度神经网络模型架构？

最近几年,随着公共领域中的数据规模和计算机的运算能力的大幅提升,神经网络模型在视觉,自然语言处理等领域取得了飞速的发展,各种任务的性能指标被不断刷新.人们为了追求更高的性能,提升模型的学习能力,设计了 ...
深入浅出的模型压缩：你一定从未见过如此通俗易懂的Slimming操作

作者丨科技猛兽编辑丨极市平台极市导读本文首先介绍了模型压缩领域的指标含义,并通过梳理文献,介绍了模型压缩领域常用的方法.随后对Slimming这一模型压缩方法进行了详细介绍,并讲解了Slimmi ...
模型压缩与蒸馏！BERT的忒修斯船

如果忒修斯的船上的木头被逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗? -普鲁塔克最近遇到一个需要对算法加速的场景,了解到了一个比较简洁实用的方法:Bert-of-these ...
GitHub项目推荐｜基于强化学习的自动化剪枝模型

今天为大家介绍一个GitHub上最新开源的一个基于强化学习的自动化剪枝模型,本模型在图像识别的实验证明了能够有效减少计算量,同时还能提高模型的精度.项目地址:https://github.com/fr ...
TinyBert: 蒸馏集大成者！！

大家好,我是DASOU,今天说一下 TinyBert: TinyBert 主要掌握两个核心点: 提出了对基于 transformer 的模型的蒸馏方式:Transformer distillation ...
给Bert加速吧！NLP中的知识蒸馏Distilled BiLSTM论文解读

来自:ChallengeHub 论文题目:Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 论文链接:h ...
压缩之后神经网络忘记了什么？Google研究员给出了答案

详细信息如下: 论文链接:https://arxiv.org/abs/1911.05248 项目链接:https://github.com/google-research/google-researc ...
滴滴深度模型压缩技术在智能座舱方案的探索与实践

导读: 近年来,智能汽车的概念已经成为了主流的发展趋势.汽车座舱在智能汽车的场景中成为关键一环.将汽车座舱智能化可以提高整体乘客乘坐品质和驾驶员行驶体验,智能座舱的功能丰富,其中多数核心算法是基于深度 ...
AAAI 2021线上分享 | BERT模型蒸馏技术，阿里云有新方法

通过在下游 NLP 任务上的微调,BERT.XLNet 和 RoBERTa 等预训练语言模型已经展示出了卓越的性能.但是,这些模型中的大量参数导致储存和计算成本过高,从而对模型在资源受限应用场景中的部 ...
模型压缩经典解读：解决训练数据问题，无需数据的神经网络压缩技术

作者丨科技猛兽来源丨极市平台编辑丨极市平台极市导读目前很少有工作关注在无数据情况下的网络压缩,然而,这些方法得到的压缩后的网络准确率下降很多,这是因为这些方法没有利用待压缩网络的信息.为了解决 ...
关于NLP相关技术全部在这里：预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学...

大家都知道NLP近几年非常火,而且发展也特别快.那些耳熟的BERT.GPT-3.图神经网络.知识图谱等技术实际上也就是这几年发展起来的,特别像图神经网络在这两年间取得了飞速的发展.我们正处在信息爆炸的 ...
【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望

大家好,这是专栏<AI不惑境>的第十一篇文章,讲述知识蒸馏相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程,那 ...
LDLR小鼠模型构建技术

基因敲除小鼠是什么?是否就是我们平日所说的实验室用的小白鼠?其实小鼠有很多种,小白鼠只是其中一种,通常普通的小白鼠多被药厂用作临床试验,而基因敲除的小鼠,则用于更尖端的生物医学研究. 基因敲除小鼠技术 ...
我们真的需要模型压缩吗

本文翻译自博客: <Do We Really Need Model Compression?> 作者:Mitchell A. Gordon 前言: 模型压缩是一种缩小训练后的神经网络的技 ...
详解NLP中的预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文...

NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...

【BERT】BERT模型压缩技术概览

相关推荐