【信息抽取】如何使用卷积神经网络进行关系抽取 / 开普饭

事物、概念之间的关系是人类知识中非常重要的一个部分，但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实，从早期的模式匹配到近年的神经网络，大量的研究在多年前就已经展开。

然而，随着互联网的爆炸发展，人类的知识也随之飞速的增长，因而对关系抽取（Relation Extraction, RE）提出了更高的要求，需要一个有效的RE系统，能够利用更多的数据；有效的获取更多的关系；高效的处理更多复杂的文本；具有较好的扩展性，能够迁移到更多的领域。

本文首先介绍一种基于卷积神经网络的关系抽取方法。

作者&编辑 | 小Dream哥

1 导论

在引入深度学习之前，在NLP领域，关系抽取最优的方法是基于机器学习的方法。机器学习的方法依赖手动提取特征，手动提取的特征通常依赖于其他的NLP系统（一些NLP工具），这些工具不免会带入错误，这些错误就会在关系抽取的任务中进行传播。

因此，基于机器学习的关系抽取方法代价大且效果不佳。这里介绍一种比较早的应用深度卷积神经网络进行关系抽取的方法，由神经网络进行特征抽取，避免了手动的特征提取，实现了端到端的关系抽取。

Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao. 2014. Relation classifification via convolutional deep neural network. In Proceedings of COLING, pages 2335–2344.

2 网络结构

如上图所示是该基于深度卷积神经网络的模型框架图，从图中可知，模型的输入是一段话，并指明了句子中的2个实体；输出为一个特征向量，表征了这两个实体的关系。该结构主要分为3个部分：词嵌入、特征抽取以及输出。

1）词嵌入（Word Representation）

词嵌入就是目前NLP领域最普通的词嵌入，每一个输入词语转化成一个固定维度的向量。这个向量是从预先训练好的词向量字典中查找得到，这份词向量字典中的词向量表征了词之间的语义关系。

2) 特征抽取层

鉴于关系分类是一个复杂的任务，模型需要学习实体的词语级特征和整个句子的语义级别的特征，才能完成关系的分类。

因此模型的特征抽取包括两个部分，词语级特征抽取和句子级特征抽取。词语级的特征抽取提取局部的词语级的信息，句子级的特征抽取提取全局的语义信息，二者结合提高模型的准确性。

1.词语级特征抽取（Lexical Level Features）

如上图所示，词语级特征包括3个部分，

第一部分是词语（待分类的实体）本身；

第二部分是词语左右的词；

第三部分是词语的上位词，通过wordNet获取得到。

这三个部分的通过词嵌入之后，拼接在一起就构成了词语级的特征。

2.句子级特征抽取（Sentence Level Features）

词向量虽然能够一点程度的表征词语之间的关系及相似度，但是在关系抽取任务中，通常需要在当前语境的关系下学习两个词之间的关系。有时候两个词语之间的距离还会比较远，这就需要模型要能够表征长距离的特征及语义特征。

为此，模型设计了一个Convolution层，用于句子级的语义特征抽取。

首先，Convolution层的输入包括两个部分，Word Feature和Position feature。

Word Feature是由一定大小的窗口，拼接起来的特征。假设，输入序列经过词嵌入之后的序列为（X1,X2,...Xn）,假设窗口的大小为3，则Word Feature构建成这样：

{[Xs,X1,X2],[X1,X2,X3],...[Xn-1,Xn,Xe]}

通过这种方式，能够一定程度的提取句子的局部特征。但是全局特征，仍需要其他模块来提取。

模型中的Position feature是相对距离，记录的是当前词与两个待预测实体之间的相对距离，PF=[d1, d2],并且初始化成一定维度的向量。

最后将两种特征拼接起来X=[WF,PF]构成句子级特征抽取的输入。

随后的Convolution层非常的简单，主要包括如下的3步：

第一步，线性变换：

第二步，最大层池化：

池化的维度是序列延展的方向。通过最大层池化，提取出最有效的特征。

第三步，激活函数：

3) 输出层

将词语级特征和句子级特征拼接起来，[Y，g]，接一个全连接层，获得模型的特征向量O，最后再接一个softmax层，输出两个词属于预定义关系类别的概率。

模型训练采用常用的随机梯度下降和方向传播算法，这里就不再赘述。

总结

本文介绍了一种基于深度学习的关系抽取的方法，这是用深度学习处理关系抽取任务最早的工作之一了，避免了早期用机器学习方法的人工特征提取，取得了当时最好的效果。

用现在的眼光来看这个模型，可能觉得稍显“粗陋”，例如，局部特征和全局特征分开抽取，简陋的卷积网络、最大池化的操作值得商榷。但看看早期的工作能够更好的理解目前的NLP工作，更深刻的理解目前的BERT等新工作的做法。

下期预告：基于循环神经网络的关系抽取

知识星球推荐

扫描上面的二维码，就可以加入我们的星球，助你成长为一名合格的自然语言处理算法工程师。

知识星球主要有以下内容：

(1) 聊天机器人。

(2) 知识图谱。

(3) NLP预训练模型。

转载文章请后台联系

侵权必究

【信息抽取】如何使用卷积神经网络进行关系抽取

相关推荐