深度学习自然语言处理
一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~
156篇原创内容
公众号
来自:复旦DISC
本次分享我们将介绍三篇 ACL 2021 的论文。其中前两篇属于情感分析,第三篇属于风格分析。第一篇和第三篇分别从分类依据(特征值)和交叉风格数据集构建两种角度提出了改进情感或风格分类模型性能的办法。第二篇通过提出一种新的情感类别的表示形式(分布式表示)更好地界定了不同情感类别之间的区别与联系。
1. 不确定性和惊讶值共同传递妙语:基于不协调的特征进行幽默识别( Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition)
论文地址: https://aclanthology.org/2021.acl-short.6/幽默识别是一个被广泛研究的文本分类问题。然而,大多数现有的工作并没有真正理解幽默的机理。在本文中,作者提出了幽默的不协调理论,该理论将幽默的本质归功于期望的推翻。基于该理论,幽默文本可以分解为两个不同的组成部分:Set-up 和 Punchline。Set-up 用来给观众埋下一个期待,而 Punchline 用来让期待落空,从而产生一种出人意料的戏剧效果。同时,作者将该理论与预训练的语言模型(GPT-2)相结合,提出了两个特征值:Uncertainty 和 Surprisal。通过实验发现,这两个特征值可以显著提高模型对幽默文本的分类效果。
2. 情感空间中情感类别的分布式表示( Distributed Representations of Emotion Categories in Emotion Space)
论文地址: https://aclanthology.org/2021.acl-long.184/现有的情感检测任务当中,情感类别一般用 one-hot 向量表示,但是这种表示形式忽略了情感类别之间的关联。在本文中,作者提出了一个通用框架,用于计算情感分类数据集中情感类别的分布式表(Distributed Representations, DR)。实验证明,相较于语义空间中的词向量表示,情感空间中情感类别的分布式表示可以更好的展现不同情感类别之间的区别与联系。
3. 风格不是单一变量:跨风格语言理解案例研究(Style is NOT a single variable: Case Studies for Cross-Stylistic Language Understanding )
论文地址: https://aclanthology.org/2021.acl-long.185/每个文本的风格都是由不同因素的复杂组合形成的,例如情感、隐喻等。如果不从全局的角度把握不同风格的组合(Combination)和共变(Co-vary),人们就无法形成对文本的完整理解。这一任务被称为交叉风格语言理解。本文提供了基准语料库(xSLUE),它收集了现有的数据集并构建了一个新的用于句子级跨风格语言理解和评估的语料库(在同一文本上注释所有风格)。该语料库包含四个理论分组下的 15 种不同风格的文本:比喻组、个人组、情感组以及人际交往组。基于 xSLUE,作者构建了一个将多种不同风格的文本打包一起训练的交叉风格分类器,并进行了三个非常有趣的案例研究:交叉风格文本分类、风格关联性研究以及条件风格文本生成。 SemEval 2021 Task 7 : classifying Tweet and Kaggle Short Jokes into humorous or humorlessGoEmotions : classifying English Reddit comments extracted from popular English subreddits into multi-labeled for 27 emotion categoriesxSLUE : individual style dataset and cross-style diagnostic set for cross-style language understanding and evaluation
动机
幽默识别一般被视为文本二分类问题,之前的研究一般采用统计机器学习和神经网络的方法在幽默数据集上训练模型,没有尝试将幽默理论运用到幽默识别中。为了进一步提高幽默文本分类效果,本文从幽默的不协调理论出发,将幽默理论与大规模预训练语言模型结合起来去辅助分类器进行幽默文本分类识别。
模型
1. GPT-2 语言模型
幽默的不协调理论将一段文本分为 set-up 和 punchline 两个阶段,由于神经网络的崛起,预训练的语言模型可以在一个很大的数据集上学习这两个阶段之间的关系。在给定 set-up(x)后,语言模型可以续写出期待的后续(y),通过比较真实的 punchline 和语言模型生成的 y,我们就可以定量衡量这段文本的不协调程度。 作者将 set-up 和 punchline 拼接之后输入预训练的语言模型 GPT-2,根据模型输出的概率分布计算这段文本的两个特征值:Uncertainty 和 Surprisal。
2. Uncertainty
作者用概率分布的平均熵来表示 Uncertainty。这里的 代表整个词典, 指模型第 个输出为词典中的单词 的概率,然后用这个熵的公式去遍历一轮词典中所有的词,就得到了第 个输出的 Uncertainty,接着将所有输出的 Uncertainty 的值相加并除以输出的个数,就得到了这段文本的 Uncertainty。
3. Surprisal
Surprisal 可以反映语言模型生成真实 punchline 的概率:该概率越大,Surprisal 的值越小。Surprisal 被定义为: 这里的 代表整个词典, 指模型第 个输出为真实值 的概率。
实验
为了让数据集更适用于文章提出的幽默框架,作者只考虑其中正好含有两个句子的正例(笑话),和至少含有两个句子的反例(非笑话)。这样第一个句子就是 set-up,第二个句子就是 punchline。然后作者用支持向量机分类器检测单个特征(Uncertainty / Surprisal)以及联合特征(U+S)在区分笑话上的有效性。实验结果见下表。相较于 baseline,作者提出的这两个特征在 4 个评价指标上表现都更加优异,而这两者联合起来之后模型的分类效果达到了最优值。 接着,作者构建了一个基于内容的分类器,来验证特征和词向量结合后的有效性。作者用 glove 预训练的词向量将 set-up 和 punchline 转换成 50 维向量的表示形式(具体做法为:将每一个单词的词向量在各个维度上对应相加求和并根据长度做归一化),并将这两部分的向量拼接起来,用 100 维的向量去表达这段文本。然后将两个特征值附加在这个 100 维的向量后面,用 SVM 支持向量机进行分类,结果如下图。可以看到 glove 词向量和单独的特征结合就可以提升模型的分类性能,而词向量和两个特征结合之后模型获得了最大的性能提升,说明作者给出的这两个特征值(Uncertainty / Surprisal)可以很好的区分幽默文本与非幽默文本。
动机
情感分类是文本情感分析领域非常重要的一项任务,但是在现有的研究中,情感类别通常被表示为 one-hot 向量形式,这种表示方式无法体现情感类别之间的关联。因此,为了更好的表达情感关系,本文提出了情感类别的分布式表示(Distributed Representations, DR)。
模型
以类别 为例,为了获得类别 的分布式表示,第一步需要计算数据集中类别 对应的所有样本的分布式表示;第二步根据样本的分布式表示计算出类别 的分布式表示。
1. 样本的分布式表示
样本输入进神经网络之后,模型的输出值是一个 soft label,这个向量在第 维的值代表样本属于第 个类别的概率,在本次任务中,作者使用 soft label 作为样本的分布式表示(Distributed Representations, DR)。
2. 情感类别的分布式表示
以类别 为例,在第一步中,我们得到了所有被标注为类别 的样本的 DR:,类别 的 DR(用 表示)需要满足它和对应样本的 DR 距离和最小: 损失函数对 求导并令导数为 0 即可求得 的最优解:,因此,情感类别 的 在形式上就是所有被标注为类别 的样本的 的均值。
实验
实验所使用的数据集(GoEmotions)共含有 27 个情感类别,这些类别按照不同的分类标准有两种划分形式:
三种态度:Positive / Negative / Ambiguous
六个基类:Anger / Disgust / Fear / Joy / Sadness / Surprise
在实验阶段,作为对照,作者用每一个情感类别对应的词向量作为其在语义空间中的向量表示,文中一共使用了三种词向量:GloVe / SSWE / EWE。作为对 GloVe 的改进版本,SSWE 和 EWE 将词的情感信息也编码进了词向量中。
接着作者对不同情感类别的分布式表示(DR)和词向量表示进行了降维可视化的处理。可以发现,词向量表示的情感类别,三个大类之间没有明显的界限,但是分布式表示中,这三类可以被两条线很明显的分开,这表明分布式表示可以很好的区分不同类别的情感词汇。在情感空间中,情感态度相似的词会更容易聚集在一起。
第二个实验是 Mapping 实验,任务是将 21 个情感类别划分到 6 个情感基类中。对每一个情感类别,我们需要从 6 个情感基类中选择一个和它最相近的词作为我们的输出结果,相似程度以余弦相似度(Cosine Similarity)表征,结果如图:
Human 列是人为标注的正确答案,如果标错在图中显示红色。比较语义空间的词向量和情感空间的分布式表示(DR)在这个任务上的正确得分,可以发现,情感的分布式表示可以更好的完成相似情感类别的映射任务,可以更好的展现情感类别之间的关联。
最后,为了衡量不同语料库中情感关系(Emotion Relation)的一致性,作者计算了不同数据集情感类别的 DR 间的余弦相似度,由结果知情感类别的分布式表示(DR)所展现出来的不同情感类别之间的 boundaries 和 relations 是不因数据集而异的。
动机
现有的文本风格研究主要针对的是单一风格,但是风格并不是单一变量 ,而是多个变量共同变化形成的,仅仅关注单一风格会忽略风格的相关性。为了全面的理解文本的风格以及不同风格之间的依赖关系,作者构建了新的交叉风格数据集并尝试去回答下面三个问题:
不同风格如何系统的组合以产生恰当的文本?
模型
为了进行比较全面的风格研究,作者构建了一个新的数据集:xSLUE。这个数据集中包含 15 个单一风格的数据集和 1 个交叉风格的数据集(交叉集)。这 15 种风格可以根据不同的社会目标分为四个大组:个人组,情感组,比喻组,人际交往组。 交叉集就是在同一样本上标注所有 15 种风格的标签,如下图所示。
实验
1. 交叉风格文本分类
在交叉风格文本分类中,作者构建了两个分类器:单一风格分类器和交叉风格分类器(如下图)。
单一风格分类器在单一风格的数据集上进行训练;而交叉风格分类器在多种不同风格的数据集上进行共同训练,它的输入不再是一个简单的句子,而是很多来自不同风格文本的组合,它们打包之后输入基于编码器 - 解码器的分类模型,模型最终输出一组 style label,每一个 label 都对应着输入中的一个句子。
单一风格分类器属于判别式模型,对 条件概率分布进行建模;交叉风格分类器属于生成式模型,对 联合概率分布进行建模。
这两类分类器在对应的训练集上训练完成之后,作者用单一风格数据集的测试集和交叉集分别对模型性能进行评估,结果如下图所示,图中的得分均为 F1 值。
由结果可知,不论是用单一风格数据集的测试集还是用交叉集进行评估,交叉风格分类器在 15 类风格分类任务中的平均得分都要高于单一风格分类器,说明对多风格样本的共同学习可以显著提高模型在风格分类任务中的性能。
2. 风格关联性研究
为了探究不同风格之间的相关性,作者从推特上抓取了一百万条推文,用交叉风格分类器预测这些推文所属的 style label,然后对这些 label 进行皮尔森相关性分析,得到下图所示的相关性矩阵。通过总结高度相关的风格,作者发现了一些常见的风格集群,例如 Positive 和 Feeling bad。实验证明一些特定风格之间的相关性要比和其他风格之间的相关性高,当某种风格发生变化时,与之相关的其他风格很大概率也会发生变化。
3. 条件风格文本生成
第三个实验是条件风格文本生成实验。将交叉风格分类器和预训练生成器结合就组成了条件风格生成器。在给定 Style 时,生成单词 的概率正比于 和 的乘积。 为了探究分类器的性能和生成质量之间的关系,作者通过提前停止的策略降低分类器的分类效果,并用这个没有迭代完全的分类器(利用前面的公式)生成指定风格的文本,并人工评估文本的质量。评估指标有三个:Style appropriateness (生成的文本是否符合指定的风格) / Consistency with prompt (生成的文本和开头的连贯性)/ Coherence(整体的一致性)。可以看到,随着迭代次数的增加(即分类器性能的提升),生成文本的质量也在稳步提高(eg. 3.04 3.83)。也就是说,更好的分类性能可以带来更好的条件风格文本生成质量。
投稿或交流学习,备注:昵称-学校(公司)-方向 ,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
深度学习自然语言处理
一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~
156篇原创内容
公众号