基于编辑方法的文本生成（下）

2024-04-20 02:38:25

来自：哈工大讯飞联合实验室

上一期介绍了在文本生成任务中引入编辑方法，以及Google Research的两篇工作——LaserTagger和Seq2Edits。本期将继续介绍Google的第三篇工作FELIX以及三篇工作的实验评价部分和总结。

···

4. FELIX

FELIX是Google Research在 “FELIX: Flexible Text Editing Through Tagging and Insertion” 一文中提出的文本生成模型，该论文发表于EMNLP 2020 Findings。
受限于有限的编辑操作标签，LaserTagger、Seq2Edits主要进行单词或短语的保留、删除、替换操作，更多的是对文本的局部编辑，无法直接改变文本的结构特征（例如主动句改被动句：“They ate steak for dinner.” “Steak was eaten for dinner.”）。同时，受限于词典规模，LaserTagger与Seq2Edits也不支持大量插入新文本。而如果使用自回归的方法来支持大量插入新文本，势必大大降低模型的推理速度。所以，FELIX希望能够兼顾文本生成的推理速度和灵活性。

本篇工作的主要改进有：
（1）在保留、删除等基本编辑操作上引入重排序（reorder）操作。通过重排序操作，在复用重复文本的同时实现文本结构特征的改变，提高文本生成的灵活性。
（2）受BERT自监督预训练任务启发，通过引入Masked Language Model（MLM）来预测待插入的新词。

4.1 主要方法

FELIX将文本生成分为两步：通过标注模型（tagging model）对源文本标注编辑标签后进行重排序，然后输入插入模型（insertion model）对要插入的新文本进行预测。

图 9 FELIX主要结构与生成过程

标注

以图10为例，源文本为 “The big very loud cat.” ；目标文本为 “The noisy large cat.” 。其中为tagger模块预测的标签序列；为经过Pointer重排序后加入特殊标签（, ）得到的序列，将输入插入模型预测得到最终结果。

图 10 FELIX对插入文本的两种预测方式

FELIX对编码后的源文本进行标注，保留操作和删除操作标签仍为和。结合MLM，FELIX设计了两种方式预测要插入的新文本：Masking 和 Infilling 。Masking 方式不仅需要模型预测插入内容，还需要模型预测插入文本的长度（如，对应中加入两个标签）。Infilling 方式直接让模型预测待插入的新文本的内容，不需要模型预测插入文本的长度。即，在中插入固定个数的标签（实验中插入8个即可覆盖99%的样本），预测插入内容时多余的标签使用标签覆盖。
需要注意的是，在将输入到MLM进行预测时，FELIX保留了待删除的span（用一对特殊的token 和将span括起来，而非直接将待删除部分替换为标签）。即使这样做会导致fine-tuning和pre-training的不一致，但能够保留更多的语义信息，提高模型预测的准确性。
重排序

为了保证推理效率，FELIX的重排序也是非自回归（non-autoregressive）的，类似于non-projective dependency parsing。具体实现时使用constrained beam search来保证除了待删除的token外，每一个token都会被指向，且避免有token被指向两次而产生循环。

图 11 FELIX Reorder 实现过程

4.2 模型概述

FELIX tagging model:

Encoding: 使用12层的BERT-base模型对源文本进行编码。
Tagging: 使用一层feed-forward layer预测标签。
Pointing: 基于注意力机制的pointer network进行重排序。

FELIX insertion model:

12层的BERT-base模型。并使用预训练权重进行初始化。

5. 实验评价

三篇工作分别在句子融合、句子分割复述、语法纠错等多种文本生成任务上进行了实验，主要验证了模型在三方面的性能：生成文本的质量、模型推理效率以及模型在小样本上的表现。

	LaserTagger	Seq2Edits	FELIX
句子融合（Sentence Fusion）	✓	✓	✓
句子分割复述（Split & Rephrase）	✓	✓
文本摘要（Summarization）	✓		✓
语法纠错（Grammatical Error Correction）	✓	✓
文本规范化（Text Normalization）		✓
文本简化（Text Simplification）		✓	✓
自动后编辑（Automatic Post-Editing）			✓

5.1 生成质量

句子融合 & 分割复述

三篇工作均在句子融合任务上进行了实验，使用数据集为DiscoFuse，评价指标为SARI、Exact。其中SARI将预测输出与输入文本以及reference比较，评价模型对源文本进行各种编辑操作后生成文本的“好坏”；Exact主要评价模型生成的文本和标准答案之间“有多接近”。

SARI Exact

full sequence model BERT2BERT 89.52 63.90

Seq2Seq_BERT 85.30 53.60

edit-based model LaserTagger 85.45 53.80

Seq2Edits 88.73 61.71

FELIX 88.78 61.31

从上表中可以看出，基于编辑方法的生成模型较之传统full sequence model在生成文本的质量上有下降，但改进后的Seq2Edits和FELIX在两项指标上已经和full sequence model十分接近。

LaserTagger和Seq2Edits均在句子分割复述任务上进行了实验。该任务为句子融合任务的逆任务，使用数据集为WikiSplit 。Seq2Edits在该项任务上表现较优。

SARI Exact

full sequence model Seq2Seq_BERT 62.3 15.1

edit-based model LaserTagger 61.7 15.2

Seq2Edits 63.6 17.0
文本简化

Seq2Edits和FELIX均在文本简化任务上进行了测试，并与LaserTagger进行了对比。该任务需要在保持源文本基本语义的情况下，通过改写降低源文本的复杂度，以方便儿童等特殊群体阅读。实验使用数据集为WikiLarge，评价指标为SARI。在该项任务上FELIX有着较好的表现。

SARI

edit-based model LaserTagger 32.31

Seq2Edits 37.16

FELIX 38.13

	SARI	Exact
full sequence model	BERT2BERT	89.52	63.90
Seq2Seq_BERT	85.30	53.60
edit-based model	LaserTagger	85.45	53.80
Seq2Edits	88.73	61.71
FELIX	88.78	61.31

	SARI	Exact
full sequence model	Seq2Seq_BERT	62.3	15.1
edit-based model	LaserTagger	61.7	15.2
Seq2Edits	63.6	17.0

	SARI
edit-based model	LaserTagger	32.31
Seq2Edits	37.16
FELIX	38.13

5.2 推理效率

在推理效率方面三篇工作均与传统full sequence model进行了对比实验，结果证明相较于传统seq2seq方法，基于编辑方法确实能够大大提高模型的推理速度。在推理速度上对三种模型进行横向对比，FELIX最优，而Seq2Edits由于模型本身的复杂性，在三者中速度最慢（FELIX > LaserTagger > Seq2Edits）。

表 5 LaserTagger不同batch size推理时间（单位：ms；on NVIDIA Tesla P100）

表 6 Seq2Edits 在语法纠错任务（on BEA-dev）上的CPU decoding速度。括号中为相比full sequence model的加速倍数。

图 12 FELIX推理时间与LaserTagger、BERT2BERT对比
（单位：ms；batch size = 32；on NVIDIA Tesla P100）

5.3 小样本表现

LaserTagger和FELIX两篇工作均在小样本训练数据上测试了模型性能。相比full sequence model而言，LaserTagger和FELIX两者对训练数据规模变化并不敏感（训练数据规模从45k缩小到4.5k时full sequence model性能出现了较大下降），且在小样本数据上FELIX表现要好于LaserTagger。

图 13 不同训练集大小对模型性能的影响（句子融合任务 DiscoFuse数据集）

6. 总结

模型	编辑操作	插入新文本	推理方式	推理效率
LaserTagger	token-level；保留、删除、插入	根据训练数据构造短语词典，从词典中直接选择。	一轮序列标注；非自回归；	加速10x-100x （相比 SEQ2SEQ_BERT）
Seq2Edits	span-level；三元组不同任务有不同tag vocabulary	open-vocab	预测N个三元标签组；自回归；	加速5.2x（相比 full sequence model）
FELIX	token-level；保留、删除、MASK、重排序	open-vocab 用MLM预测MASK对应的token	标注+重排序+MLM；非自回归；	加速100x（相比 full sequence model）

基于编辑方法的文本生成优势与不足主要如下：

Pros	Cons
与full sequence models相比，推理速度大大加快。模型输出可解释性强。对训练数据规模较不敏感；在小样本上表现较好。	遵循较弱的语言模型。生成的灵活性不足。

未来工作的关键在于生成质量和推理效率的对立统一。目前基于编辑方法使用非自回归预测输出时，虽然能够提高推理效率，但势必会损失生成文本的质量。因此，质量和效率尽量做到“鱼与熊掌二者兼得”将成为未来研究工作的希冀。

References

[1] Malmi, Eric, et al. 'Encode, tag, realize: High-precision text editing.' arXiv preprint arXiv:1909.01187 (2019).
[2] Stahlberg, Felix, and Shankar Kumar. 'Seq2Edits: Sequence Transduction Using Span-level Edit Operations.' arXiv preprint arXiv:2009.11136 (2020).
[3] Mallinson, Jonathan, et al. 'Felix: Flexible text editing through tagging and insertion.' arXiv preprint arXiv:2003.10687 (2020).
[4] https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html
[5] https://ai.googleblog.com/2021/05/introducing-felix-flexible-text-editing.html
[6] https://thinkwee.top/2021/05/11/text-edit-generation/

原文：吴珂

编辑：HFL编辑部

C4D AE 制作炫酷标题生成动画

-- 微资讯 · 微课程 -- 利用零碎时间,走上超神之路! 非常炫酷的文字动画效果,制作难度也不算高,但是技巧挺精巧,使用破碎效果和splinemask做的曲线布尔运算,值得学习: 视频短片学 ...
改善图像处理效果的五大生成对抗网络

作者 | Martin Isaksson 译者 | Sambodhi 策划 | 刘燕在图像处理方面,机器学习实践者们正在逐渐转向借助生成对抗网络的力量,本文带你了解其中五种生成对抗网络,可根据自己的 ...
关于NLP相关技术全部在这里：预训练模型、信息抽取、文本生成、知识图谱、对话系统

我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...
NLP 训练及推理一体化工具（TurboNLPExp）

NLP 任务(序列标注.分类.句子关系判断.生成式)训练时,通常使用机器学习框架 Pytorch 或 Tensorflow,在其之上定义模型以及自定义模型的数据预处理,这种方式很难做到模型沉淀.复用和 ...
阿里巴巴的达摩院终于搞了点拿得出手的东西...

阿里巴巴的达摩院终于搞了点拿得出手的东西了,2021年4月21日,达摩院发布超大规模语言模型PLUG,该模型参数规模达270亿,是目前全球规模最大的中文纯文本预训练语言模型. PLUG主要功能:中文语 ...
基于编辑方法的文本生成（上）

来自:哈工大讯飞联合实验室本期导读:近年来,序列到序列(seq2seq)方法成为许多文本生成任务的主流思路,在机器翻译.文本摘要等绝大多数生成任务上都得到了广泛的应用.与此同时,一些研究人员另辟蹊径 ...
基于深度学习的文本自动生成

导读:本章主要介绍如何通过文本到文本的文本复述技术,进行基于深度学习的文本自动生成.文本复述技术的现有方法能够为给定的文本生成具有较小差异的复述文本,但是难以有效生成具有很大差异的高质量复述文本.原因 ...
V咖分享会第十三期-基于思维导图高效设计测试用例的方法与案例分析-下

跟着芒果一起好好学习,天天向上~ 在上周五我们举办了测开分享会第十三期的分享,现在就由芒果为大家整理这次分享会的知识. 本次整理内容包含我们的V咖李龙老师的分享内容,部分提问及回复,还有一部分小伙伴的 ...
基于表征(Representation)的文本匹配、信息检索、向量召回的方法总结

NewBeeNLP 永远有料,永远有趣 188篇原创内容公众号最近系统性的看了一些有关于信息检索.文本匹配方向的论文,先贴下三篇主角论文: 「(ColBERT)」 Khattab, O., &am ...
Seq2seq框架下的文本生成

前言文本生成,旨在利用NLP技术,根据给定信息产生特定目标的文本序列,应用场景众多,并可以通过调整语料让相似的模型框架适应不同应用场景.本文重点围绕Encoder-Decoder结构,列举一些以文本 ...
最正宗的方法，如何生成单片机程序的bin文件(基于keil)

最权威的生成单片机程序的bin文件的方法(基于keil) 搞单片机开发的朋友,有一些应该接触过bin文件吧,像孔丙火(微信公众号:孔丙火)开发的一些传感器,有时候需要对传感器内单片机的程序进行升级更新 ...
NLP之WordCloud：基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图，看看那时我们的爱情)

NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情) Python词云图:情人节最好的礼物--给你一张 ...
基于HybridDL模型的文本相似度检测方法

摘要: 为了提高文本相似度检测算法的准确度,提出一种结合潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)与Doc2Vec模型的文本相似度检测方法,并把该算法得到的模型 ...
香醋豆角制作方法：碗内下陈醋1000克、...

香醋豆角制作方法: 碗内下陈醋1000克.米醋200克.果醋50克调匀,加入现切姜末350克,搅拌均匀后封上保鲜膜,入冷藏冰箱静置一夜,取出后捞去姜末,一品鲜酱油200克.白糖40克.蚝油25克即成 ...