最全攻略：利用LightSeq加速你的深度学习模型

2024-04-24 03:12:03

算法码上来

字节算法工程师，本硕专业第一，这里有算法、自然语言处理、模型加速等众多分享，你想要的这里都有。

228篇原创内容

公众号

- BEGIN -

前言

LightSeq是字节跳动火山翻译团队开源的一款Transformer系列模型加速引擎，分为训练和推理两个部分。其中推理加速引擎早在2019年12月就已经开源，而训练加速引擎也在2021年6月开源。

项目地址：
https://github.com/bytedance/lightseq

LightSeq主要采用了CUDA算子融合、显存优化、参数连续化、层级式解码策略等技术，感兴趣的小伙伴可以阅读此前的文章：

训练引擎：
支持Transformer全流程训练加速，最高加速3倍！字节跳动LightSeq上新

推理引擎：
速度超快！字节跳动开源序列推理引擎LightSeq

本文详细讲解一下如何使用LightSeq来改造你的PyTorch模型，实现1.5-3倍的训练加速和5-10倍的推理加速。至于TensorFlow模型的加速，目前也已经支持，这里不会详细讲解，可以参考下面NeurST的代码：
https://github.com/bytedance/neurst/tree/lightseq

整体流程

使用LightSeq进行加速的整体流程依次为：

接入训练引擎进行模型训练，并保存模型参数。
加载模型参数，使用训练引擎的前向传播部分进行模型推理。
为了更快的推理速度，还可以将模型参数导出为protobuf或者hdf5格式。
使用推理引擎解析第3步中导出的模型，并进行模型推理。

模型训练

LightSeq提供了封装好的embedding、encoder、decoder、cross entropy和adam类，可以接入到你自己的模型中替换原有的模型。

LightSeq还提供了现成的Fairseq、Hugging Face、DeepSpeed DeepSpeed可以用于大规模训练Speed、NeurST等样例。如果你用这几个训练库的话，就可以直接使用。如果你是自己的模型，那也可以手动接入LightSeq。这几个样例代码都在examples/training目录下。

自定义模型

首先引入所有可能用到的头文件：

from lightseq.training import (

    LSTransformer,

    LSTransformerEmbeddingLayer,

    LSTransformerEncoderLayer,

    LSTransformerDecoderLayer,

    LSCrossEntropyLayer,

    LSAdam,

)

以新建encoder层为例，主要分为两个步骤：

使用LSTransformerEncoderLayer.get_config函数新建config。
新建LightSeq的encoder层，即LSTransformerEncoderLayer类，使用config来初始化。

一个典型的例子如下：

config = LSTransformerEncoderLayer.get_config(    model='bert-base',    max_batch_tokens=4096,    max_seq_len=512,    fp16=True,    local_rank=0,)layer = LSTransformerEncoderLayer(config)

其中max_batch_tokens指定了训练过程中一个batch最大可能的单词数，max_seq_len指定了句子的最长长度。model提供了四种现成的模型配置：transformer-base、transformer-big、bert-base和bert-big。

当然如果你想用自己的模型配置，也可以手动补全所有的参数：

config = LSTransformerEncoderLayer.get_config(

    max_batch_tokens=4096,

    max_seq_len=512,

    hidden_size=1024,

    intermediate_size=4096,

    nhead=16,

    attn_prob_dropout_ratio=0.1,

    activation_dropout_ratio=0.1,

    hidden_dropout_ratio=0.1,

    pre_layer_norm=False,

    activation_fn='gelu',

    fp16=True,

    local_rank=0,

)

layer = LSTransformerEncoderLayer(config)

除了encoder以外，embedding、decoder、cross entropy和adam也可以用同样的方法新建，最后和你自己写的模型一样进行训练即可。

此外LightSeq还提供了完整的Transformer类LSTransformer，可以直接新建一整个Transformer：

config = LSTransformer.get_config(    model='transformer-base',    max_batch_tokens=4096,    max_seq_len=512,    vocab_size=32000,    padding_idx=0,    num_encoder_layer=6,    num_decoder_layer=6,    fp16=True,    local_rank=0,)model = LSTransformer(config)

示例代码在examples/training/custom中，可以直接运行python run.py查看效果。

Hugging Face

以Hugging Face官方提供的run_glue.py为例，一般首先都是用AutoModel.from_pretrained函数新建模型model，然后进行训练。

为了接入LightSeq，需要将model中的所有encoder层替换为LightSeq版本的encoder层。替换过程分为三个步骤：

使用LSTransformerEncoderLayer.get_config函数新建config。
获取Hugging Face预训练好的BERT参数。
新建LightSeq的encoder层，即LSTransformerEncoderLayer类，使用config和预训练好的参数来初始化。

新建encoder层代码参见上一小节。注意在Hugging Face这个例子里，额外给LSTransformerEncoderLayer封装了一层LSHFTransformerEncoderLayer，主要是为了兼容原来的encoder输入形状。

示例代码在examples/training/huggingface中，运行sh run_glue.sh和sh run_ner.sh分别可以查看LightSeq在GLUE和NER任务上的加速效果。

注意Hugging Face BERT的fine-tune任务很不稳定，经常会不收敛，这时候可以尝试修改运行脚本中的--seed参数。

Fairseq

Fairseq主要用于一些生成任务，使用LightSeq加速的原理是一样的，都是需要将各自组件替换为LightSeq对应的组件。

LightSeq对Fairseq做了非常完整的替换，将embedding、encoder、decoder、cross entropy和adam全部替换为了LightSeq对应的部分，来达到极致的加速效果。

示例代码在examples/training/fairseq目录下，其中fs_cli目录存放着三个启动入口：train、validate和generate，fs_modules目录存放着用LightSeq封装好的几个Transformer组件。

直接运行sh ls_fairseq_wmt14en2de.sh即可自动下载数据并运行WMT14英德机器翻译任务。脚本中主要的运行命令如下：

lightseq-train /tmp/wmt14_en_de/ \

    --task translation \

    --arch ls_transformer_wmt_en_de_big_t2t --share-decoder-input-output-embed \

    --optimizer ls_adam --adam-betas '(0.9, 0.98)' --clip-norm 0.0 \

    --lr 5e-4 --lr-scheduler inverse_sqrt --warmup-updates 4000 --weight-decay 0.0001 \

    --criterion ls_label_smoothed_cross_entropy --label-smoothing 0.1 \

    --max-tokens 8192 \

    --eval-bleu --eval-bleu-args '{'beam': 5, 'max_len_a': 1.2, 'max_len_b': 10}' \

    --eval-bleu-detok moses --eval-bleu-remove-bpe --eval-bleu-print-samples \

    --best-checkpoint-metric bleu \

    --maximize-best-checkpoint-metric --fp16

注意到和一般运行Fairseq的命令不同的地方有这么几个：

启动入口从fairseq-train替换为了lightseq-train，这是因为在根目录setup.py里封装了--user-dir用户模块目录。如果还想继续用fairseq-train的话，就需要手动指定--user-dir fs_modules参数。
模型结构--arch需要在原来的基础上加上前缀ls_，用来指定使用LightSeq提供的Transformer模型。
优化器--optimizer和损失函数--criterion都需要在原来的基础上加上前缀ls_，指定使用LightSeq对应的组件。

DeepSpeed

DeepSpeed主要用于大规模训练，也提供了Transformer的encoder层CUDA实现，不过效率没有LightSeq高。

LightSeq提供了Fairseq+DeepSpeed分布式训练的使用样例，将启动器替换成了deepspeed，手动指定--user-dir目录，还需要指定DeepSpeed的配置文件deepspeed_config，其它参数和上一节Fairseq样例一模一样。

使用时运行sh ds_fairseq_wmt14en2de.sh即可，和上一小节一样都是用Fairseq运行WMT14英德机器翻译任务。

模型导出

在模型训练完之后，直接load保存的checkpoint就可以继续fine-tune或者推理。但是这样调用的是训练引擎的推理部分，也就是模型的前向传播。这部分代码需要频繁在python和c++之间切换，并且前向过程中计算了很多反向传播才需要用到的变量。因此速度不如纯粹的推理引擎快。

而要想使用LightSeq的推理引擎，就必须先将checkpoint转变为protobuf或者hdf5的格式。

LightSeq提供了每个组件的导出接口，如果你使用了LightSeq的模型组件，那么导出将变得非常容易。只需要引入下面的头文件即可：

from lightseq.training import (    export_ls_config,    export_ls_embedding,    export_ls_encoder,    export_ls_decoder,)

这四个函数分别可以导出推理引擎所需要的配置信息、embedding参数、encoder参数和decoder参数。而如果有其他部分的参数没包括在这里面（例如输出到词表的映射矩阵），则需要自己进行导出，详见下面的教程。

LightSeq对Hugging Face的BERT、BART、GPT2三种模型，以及Fairseq+LightSeq、LightSeq的Transformer模型都提供了模型导出的样例，代码在examples/inference/python/export目录下。其中Hugging Face的模型都是没有采用LightSeq加速训练的预训练模型参数，所以导出更为复杂一些。

模型导出的核心思想就是：

首先创建一个protobuf对象Transformer或者hdf5的文件对象。
然后在checkpoint中提取出参数值，将其赋值给Transformer或者hdf5文件对象中对应的参数。

这个过程麻烦的就是提取并且对应赋值的过程，LightSeq提供了一系列方便的操作函数。

Fairseq

执行python ls_fs_transformer.py可以导出上一章节中Fairseq+LightSeq训练样例得到的模型。

以protobuf导出为例，观察代码可以看到主体部分如下（省略了部分参数）：

file = Transformer()

encoder_state_dict, decoder_state_dict = _extract_weight(state_dict)

export_ls_embedding(file, encoder_state_dict, is_encoder=True)

export_ls_embedding(file, encoder_state_dict, is_encoder=False)

export_ls_encoder(file, encoder_state_dict)

export_ls_decoder(file, decoder_state_dict)

export_fs_weights(file, state_dict)

export_ls_config(file)

首先需要用户自己将state_dict拆分成encoder和decoder两部分，这主要是因为设计时考虑到有些用户只会用到encoder的导出（例如BERT）。并且LightSeq无法知道用户模型的最外层参数名叫啥，万一不叫encoder，而叫enc之类的呢？所以交给用户自己拆分更加合理。

然后分别导出encoder的embedding、decoder的embedding、encoder和decoder参数，这几部分都直接调用LightSeq提供的接口就行了。LightSeq会自动帮你把解析出来的参数导出到定义的Transformer类里。

接着需要处理一下Fairseq中与LightSeq无关的一些参数，例如encoder和decoder的layer norm参数等等。export_fs_weights函数需要用户自己实现，核心思想就是找到state_dict中的参数名，将其赋值给Transformer类里对应的变量就行了。

最后设置一下Transformer类里所有的配置参数就行了。

hdf5的用法类似，LightSeq都将其封装在同样的函数里了，只需要指定save_pb=False即可。

Hugging Face

执行python hf_bert_export.py、python hf_bart_export.py和python hf_gpt2_export.py三个文件分别可以导出BERT、BART和GPT2的预训练模型。

因为Hugging Face的模型参数都是预训练得到的，所以LightSeq无法识别参数名是什么样的，只能用户自己编写导出规则，具体参考上面三个导出样例即可。

LightSeq Transformer

使用LightSeq提供的Transformer进行训练的话，参数名LightSeq都知道的一清二楚，因此可以直接使用LightSeq提供的导出接口进行转换。过程和上面的Fairseq+LightSeq类似。

具体样例可以执行python ls_transformer_export.py，同时得到protobuf和hdf5格式的模型导出文件，并且对比两者生成的结果。这里的checkpoint可以使用上一章节中自定义模型小节中训练得到的模型。

自定义模型

因为自定义的模型参数LightSeq无法识别参数名，所以需要用户自己编写转换规则。

举一个简单的例子，假设用户模型中有个encoder的输出部分的layer norm参数，state_dict中的参数名叫做encoder.layer_norm.weight。那么可以按如下方式进行转换：

transformer = Transformer()enc_norm_w = state_dict['encoder.layer_norm.weight'].flatten().tolist()transformer.src_embedding.norm_scale[:] = enc_norm_w

模型推理

得到导出的protobuf或者hdf5模型后，推理就变得十分简单，核心代码就三行：

import lightseq.inference as lsi

model = lsi.Transformer('transformer.pb', 8)

output = model.infer([[1, 2, 3], [4, 5, 6]])

首先定义一个Transformer类用来加载模型参数，指定load的protobuf文路径和batch_size大小。

然后调用infer函数进行推理，传入的输入参数必须是list或者numpy类型，且必须是二维。

LightSeq在examples/inference/python/test目录下提供了三个Hugging Face模型推理的样例，此外上一小节中examples/inference/python/export中的ls_transformer_export.py代码也包含了导出后推理的过程。

最佳实践

总结一下，使用LightSeq加速你的深度学习模型，最佳方式无外乎三步：

接入LightSeq训练引擎的模型组件，构建模型，进行训练，保存checkpoint。
将checkpoint转换为protobuf或者hdf5格式，LightSeq的组件可以调用现成的转换接口，其它的需要自己手写转换规则。
调用LightSeq推理引擎，加载上一步中导出的模型，进行快速推理。

目前LightSeq已经被广泛应用在字节跳动公司内外各项业务和学术研究上，支持了标准的Transformer、BERT、BART、GPT2、ViT等多种Transformer系列模型。只要你的模型中包含有Transformer的部分组件，例如encoder层，就可以直接调用LightSeq进行加速。

联系方式

如果在使用中遇到任何问题，或者有任何需求和建议，都可以在github issue中提出，或者加入LightSeq的飞书用户群：
https://applink.feishu.cn/client/chat/chatter/add_by_link?link_token=936uf19e-966f-43f6-8401-269ab93ec38d

源码解析目标检测的跨界之星DETR（四）、Detection with Transformer

Date: 2020/07/25 Coder: CW Foreword: 本文是该系列的重点之一,通过对DETR中Transformer部分的代码解析,你就会知道Transformer是如何在目标检测 ...
Transformer再下一城！low-level多个任务榜首被占领，北大华为等联合提出预训练模型IPT

作者丨Happy 编辑丨极市平台极市导读来自Transformer的降维打击!北京大学等最新发布论文,联合提出图像处理Transformer.通过对low-level计算机视觉任务,如降噪.超分. ...
【Transformer】从零详细解读

本文是对B站视频"transformer从零详细解读"的笔记,视频:https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1 一.概述 TRM ...
Lifting Transformer: 基于跨步卷积Transformer的高效三维人体姿态估计

论文:Lifting Transformer for 3D Human Pose Estimation in Video 地址:https://arxiv.org/pdf/2103.14304.pdf ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（五）

作者丨科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第五篇,主要介绍了MIT HAN LAB 提出的2种构建轻量级Transformer的方法: ...
解析Transformer模型

❝ GiantPandaCV导语:这篇文章为大家介绍了一下Transformer模型,Transformer模型原本是NLP中的一个Idea,后来也被引入到计算机视觉中,例如前面介绍过的DETR就是将 ...
CVPR2021-RSTNet：自适应Attention的“看图说话”模型

0 写在前面由于强大的建模能力,Transformer结构被用在一系列CV.NLP.Cross-modal的任务中.但是基于grid特征,用Transformer结构处理Image Captioni ...
深度了解自监督学习，就看这篇解读！微软首创：运用在 image 领域的BERT

作者丨科技猛兽来源丨极市平台编辑丨极市平台极市导读本文介绍的这篇工作是把 BERT 模型成功用在 image 领域的首创,也是一种自监督训练的形式,所以取名为视觉Transformer的BER ...
肉友的多肉“安全度夏全攻略”彻底火了！能将多肉养肥养胖一圈儿不止！

肉友的多肉“安全度夏全攻略”彻底火了！能将多肉养肥养胖一圈儿不止！
盘点美到爆的小众景点，安徽古村落自驾游全攻略

白墙黑瓦,小桥流水,伴着淡黄的油菜花,淅淅沥沥的小雨从紧绷着的乌云里飘落,拂过脸庞.拂过衣角,带着一丝丝凉意,一丝丝迷醉. 皖南皖南,是一个很美的地方,这里有着人们最向往的写意风景,有着江南水乡唯美 ...
【坪洲一日遊】打卡景點、美食、行山、交通全攻略（附坪洲船期表）

坪洲只有三分一個長洲的大小,於60.70年代曾是工業重鎮,島上亦保留昔日手工業的痕跡.主要的商店和餐廳都集中在永安街和永興街,充滿懷舊和文創的氣氛.Klook 為大家介紹坪洲的好去處,熱門景點.特色小 ...
冰箱参数全攻略，思维导图带你搞定冰箱选购！收藏就对了

本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:石开大叔创作立场声明:冰箱选购攻略! 写在前面冰箱作为现在家庭生活中必不可少的电器,其发挥着越来越重要的作用,而它24小时工作的特性使得 ...
■高温虾塘多发问题全攻略！对虾长得快，必须重视这几个管理要点

高温季节是虾长得最快的时候,但也是虾最容易出问题的高峰期,不少养殖户因为不了解高温对水产养殖的危害,盲目喂料或下药,造成虾病的发生,对养殖效益造成很大损失. 5月份,对虾养殖也进入了高温期管理阶段,该 ...
越来越火的西双版纳，最全攻略看这里

云南是个好地方.我一直都觉得云南的旅行资源是国内最丰富的,且没有之一的那种. 云南的西北线可以去大理.丽江.香格里拉.梅里.雨崩...一路风景大开大合,逐渐的深入西藏. 西南线可以去腾冲.怒江,这里云 ...
【多图】真丝面料知识超全攻略

(F先生整合分享) 部分参考资料来源: 方大丝绸真丝百科/知乎@枞宝/个人资料 1. 真丝面料分类和特点 1. 真丝素绉缎特点: 织法紧密,手感细腻柔软,有正反面,正面光滑细腻,外表不透明,色泽度很 ...
湖北师范大学衣食住行的4000字超全攻略

Q群搜588320510加入考研交流群获取考研新鲜资讯和复习资料 2021年调剂湖北师范大学研究生上岸啦~ 因为是第一次出省上学,有点激动嘿嘿嘿,就在贴吧.知乎还有公众号查阅了一些关于湖北师范大学的 ...
再也不怕图片拍虚！风光摄影对焦技巧全攻略！

再也不怕图片拍虚！风光摄影对焦技巧全攻略！

最全攻略：利用LightSeq加速你的深度学习模型

前言

整体流程

模型训练

自定义模型

Hugging Face

Fairseq

DeepSpeed

模型导出

Fairseq

Hugging Face

LightSeq Transformer

自定义模型

模型推理

最佳实践

联系方式

相关推荐