写了一篇关于 NLP 综述的综述!
综述,往往是了解一个子领域最为高效的起点。然而,对于AI这样一个日新月异高速发展的行业,时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation,如果它写于 20 年前,那对今天的我们来说,这份综述的总结必然是不够全面的。那么,站在 NLP 发展轨迹中的此时此刻,哪些综述是当前最值得阅读的呢?
本文参考了 Elvis Saravia 相关主题的 twitter[1],以及其他网友的推荐,为大家整理了 13 篇高质量综述,囊括了该细分领域的最新发展现状。其中有几篇,卖萌屋已经在往期推送中为大家介绍过了。如果大家对其他某篇特别感兴趣,也可以在评论区留言,点赞数量较多的话,卖萌屋作者团队会在日后的推送中献上该文的详细解析。
Transformer 相关
改良理论总结
首先是绕不开的 Transformer 系列。自 Transformer 在17年底被提出后,又涌现了大量Transformer的变体,各自从不同的角度来改良Transformer。据不完全统计,以改进 Transformer 为主题的论文,已有 200+ 篇。
其实从去年开始就已经陆续有了几篇 Transformer 相关的综述文章,卖萌屋也有过相关的推送。譬如,子龙小哥哥的这篇《Transformer哪家强?Google爸爸辨优良!》,讲的是去年年底谷歌推出的一份 Transformer 综述。Sherry 也写过《谁才是Transformer家族中的最强王者?谷歌告诉你答案》,这篇更于侧重实验论证,而非理论小结:通过实验比较了各类对 Transformer的改进方式,发现“最有效的改进反而是那些简单而细节的变化:比如替换成GeGLU激活函数,使用RMS正则化等;而反观模型上的改进,很少的方法可以推广到所有任务中”。
在诸多 Transformer 综述中,我们最为推荐的是以下这篇:
论文标题:
A Survey of Transformers
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2106.04554
来自于复旦邱锡鹏老师的团队,6月15日刚刚发表在arxiv上,应该是当前最新、最全面的 Transformer 综述了。和之前综述相比,这篇文章以Transformer各结构模块为脉络进行总结(如下图所示),结构会更加清晰一些。
下游任务应用指南
上面这一篇主要是从理论角度进行总结,但在实际应用中可能还是不太清楚应该采用怎样的架构。如果你有类似的问题,不妨阅读以下这篇,可能会有所启发:
论文标题:
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2104.10640
这篇文章是基于任务场景进行总结的,相当于一个 Transformer 应用指南了。今年4月发表在arxiv上,也是时效性非常强的文章了。
另外再推荐一篇发表于今年 IJCAI'21 的 survey。这篇是专门讲预训练语言模型在文本生成上的应用。做生成的同学可以看一看:
论文标题:
Pretrained Language Models for Text Generation: A Survey
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2105.10311
轻量 Transformer
基于 Transformer 的模型往往规模宏大,训练时间也比较长。实际应用时,往往限于实验条件和落地场景,需要对其进行改造以提高运算效率、压缩模型规模。以下两篇综述,对于如何提高 Transformer 效率的方法进行了总结:
论文标题:
A Practical Survey on Faster and Lighter Transformers
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636论文标题:
Efficient Transformers: A Survey
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636
关于轻量 Transformer,卖萌屋往期也有不少相关推送,这里推荐两篇其中较新的:《超硬核 ICML’21 | 如何使自然语言生成提速五倍》(五星推荐(ง ·̀_·́)ง),以及《Transformer太大了,我要把它微调成RNN》。
视觉 Transformer
与NLP领域不同,隔壁CV界长期占主导地位的还是 CNN 系列的框架。直到去年,我们无敌的 Transformer 开始向 CV 界渗透。在下图时间轴中,罗列了 Transformer发展历程中的几大里程碑,其中视觉 Transformer 模型被标为红色。
下面这篇综述对视觉 Transformer 模型做了总结。对这个新兴方向感兴趣的话,不妨以它作为深入了解的起点:
论文标题:
A Survey on Visual Transformer
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2012.12556
但这篇文章写于今年年初,有不少今年新出的相关工作并未囊括,其中就包括今年大火的、霸榜了 CV 各大榜单的 Swin Transformer(关于 Swin Transformer的介绍,可以参阅《屠榜CV还不是这篇论文的终极目标,它更大的目标其实是……》)。
GNN
图神经网络也是现在大火的方向。在所有能跟逻辑结构之类、能跟图结构扯上点关系的子领域,似乎只要在模型架构里接个 GNN,一篇 paper 就差不多成了 (:з」∠)
关于GNN的综述,我们推荐以下两篇:
论文标题:
A Comprehensive Survey on Graph Neural Networks
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/1901.00596论文标题:
Graph Neural Networks for Natural Language Processing: A Survey
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2106.06090
其中最为经典、citation最高的是第一篇,发表于19年底,如今引用量已有1600+;篇幅也比较短(22页)。第二篇是今年最新的综述,篇幅有127页之多。
对于初学者还是更推荐第一篇,可以配合下面这个视频共同食用。这个教学视频是李宏毅老师的 TA 补充课程,非常初学者友好。
GNN 教学视频:
https://www.youtube.com/watch?v=eybCCtNKwzA
文本增强
数据增强,简单来说就是构造新数据、扩大数据量的技术。那在 NLP 领域,就是构造新的文本数据,也就是所谓的“文本增强”。现在文本增强已经有很多现成的工具库了。对于数据稀疏的场景,都可以试一试文本增强,往往能获得意想不到的效果。在我们上月的推送《谢撩,人在斯坦福打SoTA》中,Jazon 小哥哥就是巧妙地应用了文本增强的方法,一不小心就把 CS224n 大作业刷成了 SoTA。
文本增强的综述首推下面这篇,由 CMU 、MILA 、谷歌联合推出,发表于今年3月:
论文标题:
A Survey of Data Augmentation Approaches for NLP
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2105.03075
这篇我们 sherry 小姐姐也已经写过了相关介绍:《CMU & MILA & 谷歌 | 三家巨头发布史上最干文本增强总结》。
这里也顺便给大家推荐几个好用的文本增强工具:
NLPAUG:https://github.com/makcedward/nlpaug TextAttack:https://github.com/QData/TextAttack Noisemix:https://github.com/noisemix/noisemix Textaugment:https://github.com/dsfsi/textaugment Niacin:https://github.com/deniederhut/niacin SeaQuBe:https://github.com/bees4ever/SeaQuBe
Multi-task Learning
多任务学习的相关工作其实一直都有。近期 NLP 界比较流行的做法是 multi-task + 预训练的范式。最简单的做法就是根据具体应用场景,在domain continual pretrain 的时候添加几个辅助任务。比如,要训一个会解数学题的 AI,就可以添一个辅助任务,让模型根据题面预测对应知识点(参见《ACL'21 | 多模态数值推理新挑战,让 AI 学解几何题》)。只要辅助任务添加得合理,一般都是能获得性能提升的。要是设计得比较新颖,效果比较好,说不定又是一篇 paper (:з」∠)
在 multi-task 方面最为经典的综述是以下这篇:
论文标题:
An Overview of Multi-Task Learning in Deep Neural Networks
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/1706.05098
AI 工业落地
最后推荐这三篇与 AI 工业落地相关,并不止限于 NLP 的角度。
论文标题:
Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2106.08962论文标题:
Requirement Engineering Challenges for AI-intense Systems Development
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2103.10270论文标题:
Technology Readiness Levels for Machine Learning Systems
原文链接:
https://arxiv-download.xixiaoyao.cn/pdf/2101.03989
第一篇主要是讲如何从模型设计和硬件环境等方面提高模型效率,讨论了在工业落地时应该优先考虑哪些模型效率问题,优先从哪些角度进行优化等等重要问题。
第二篇探讨的是 AI 落地所面临的挑战,包括数据需求、性能定义(评估问题)等等,并且给出了许多实用的 tips。
萌屋作者:小轶