​【NeurIPS2018论文】如何确定词向量嵌入表示的维数?斯坦福提出一种快速选择方法

词嵌入模型得到的词向量用途广泛、使用灵活,被应用于许多NLP任务中。很多NLP任务的模型,甚至是建立在词嵌入模型之上,比如机器翻译、情感分析等。然而,过往并无系统研究词向量维数怎样影响后续应用效果的工作。

斯坦福Zi Yin在NeurIPS 2018的一篇论文“On the Dimensionality of Word Embedding”提供了一种快速选择维数的方法。

历史使用的维数

直观而言,一方面,词向量维数不能太小,比如仅1维时,向量空间表达能力有限。另一方面,词向量维数也不能太大,否则有可能过拟合。即使不过拟合,考虑到下游任务的输入维数通常是词向量维数,这一线性增长的计算成本将使模型难以训练、调试。

最常用的词向量维数是300,因为Mikolov在他2013年那篇著名的skip-gram Word2Vec model中用到的维数是300。就实践而言,除了这样专制地选择一个维数,也可以通过搜索的办法去寻找一个维度,使得下游任务效果最好。但若搜索空间太小,如grid search的搜索空间,所得解一定是次优的。搜索空间太大,如连续每一个整数均进行词向量训练,则计算成本无法控制,且针对不同的下游任务,均需重启搜索。况且,全空间实际上是不能在有限时间被遍历的。

这些实际观察,启发作者发展一套崭新的理论去指导词向量维数的选择。下面就来说明该理论的两个基本前提。

酉变换下词向量的等价性

对于某一词向量矩阵经过酉变换得到的新矩阵,即左乘酉矩阵U(UU^T=I),我们认为它和原始词向量矩阵等价,仍然可以用作词向量。这一认识的关键在于,酉变换保持向量内积不变。而在词向量的假设中,两个词向量具体的数值不重要,而只有内积是关注的重点,因为内积表明了两个词向量对应的词之间的相似关系。既然旋转坐标轴不应该改变词之间的相似关系,那么酉变换对于词向量而言就应该是一个等价变换。该文所提出的衡量词向量效果的指标,就考虑了酉变换不变性这一点。

词嵌入等价于矩阵分解

很多词嵌入模型都显示或隐式地对某个信号矩阵进行SVD分解。尤其是,skip-gram Word2Vec model 被证明等价于对PMI矩阵M的分解(Levy &Goldberg,2014)。一种等价的得到词向量算法是,首先对M做SVD分解M=UDV^T,然后将左乘矩阵U截取k维,并左乘D的前k维方阵的1/2次方,就得到词表每一项的词向量所构成的矩阵。这里的k,即为词向量维数。次方指数取1/2,是为了满足对称性需要。该文将说明,次方指数能够调节词向量模型的鲁棒性。

PIP损失(PIP loss)

PIP损失(PIP loss),即Pairwise Inner Product loss,是该文基于如上两点所提出的一种损失度量,用于评判某次训练出的词向量的好坏。它在酉变换下不变,并且是一个基于矩阵的loss。具体而言,定义PIP矩阵为词向量矩阵E和它自己转置的积,即PIP(E) = EE^T,从而可以定义两个词向量矩阵E和F之间的PIP损失(也可视为距离)为 ||PIP(E) – PIP(F)||,其中的范数是F-范数(即展平矩阵后的向量的2-范数)。

偏差-方差权衡(bias-variance trade-off)

下文将阐述本文章主要的理论结果。假设有一个真实信号矩阵M,那么基于分解M得到的d维词向量矩阵E是最优的。但实际观察到的矩阵ilde{M}=M+Z,其中加上了均值为0、方差为sigma的噪声矩阵。我们只能对ilde{M}进行分解,得到不完美的k维词向量矩阵hat{E}。相对应的算法可描述如下面几个式子:

我们可以利用PIP损失来度量该估计值和真值之间的误差。该文证明:

当alpha=0时,有

当alpha在(0,1)时,有

可以看到,当维数k取得太小,会扔掉真实M谱分解的大量信号,即第一项很大;而当维数k取得太大,虽然保留了更多的原始信号,又会引入更多的随机噪声,即第一项减小时,余下的项变大。这样,最优的维数k应该是取某个中间的合适的值,以权衡偏差-方差。

鲁棒性和alpha

分析PIP损失的上界可以得知,偏差项(第一项)的指数为正(4alpha),根号内求和由最大特征值决定数量级。因此,当词向量维数k已经很大时,剩余的最大特征值也已经很小,增加k能减小的偏差是很小的。另一方面,方差项(第二项)的指数却是4alpha-2,从而当alpha小于0.5,特别的,alpha趋于0时,再增加k,这一项可能变得非常庞大,因为此时根号内求和是由最小特征值决定数量级的。从而可以得出结论,alpha越大越鲁棒。实验验证如下图。

特别是skip-gram Word2Vec model的alpha是0.5,恰好能保证一个亚线性增长的PIP损失上界,即这个模型能在一定程度上防过拟合,即增加维度k不会显著伤害模型表现。实际实验结果也符合上述推论,如下图。

最优词向量维数

实际数据中我们无法得知真实M和噪声矩阵Z,而只观察到二者之和。该文提出可以利用统计方法来分别估计二者,用一些统计方法,可以估计噪声方差和真实信号矩阵M的各个特征值如下

其中ilde{M}_1和ilde{M}_2是对原始矩阵ilde{M}的一个随机划分。得到估计值以后,我们可以选择与真实词向量矩阵间PIP损失最小的估计词向量矩阵的维数(注意,真实词向量矩阵是基于如上估计值得到的)。

注意,用PIP损失选择最优词向量维数的优势就在于,不必再训练后续的任务,回头来判断哪个维数最优,而只需要计算矩阵间距离(PIP损失)。可以看下面一个例子。在WS353,MT771和Analogy三个任务上,使用后续任务表现来选择最优维数,其数值分别为56,102和220。可以看到,不同任务会被选择出不同的最优维数,而这些维数都落在和最优PIP损失差距为5%的区间内,即[67,218]。

参考文献:
Zi Yin, Yuanyuan Shen. On the Dimensionality of Word Embedding. NeurIPS2018.

AI Time第三期6月28日下午三点-五点于海淀区中关村东路搜狐大厦二楼1911(清华科技园)举行,我们邀请到了加州大学洛杉矶分校(UCLA)副教授孙怡舟、加拿大蒙特利尔学习算法研究所 (MILA)研究员唐建和中科院自动化所副研究员刘康来论道知识图谱:“知识决定智能还是智能产生知识”。

赶快戳下方小程序进入报名通道!

学术头条已建立AI Time交流群,想进群的同学请扫描下方二维码,若群满请加学术君微信:AMiner308,记得备注:AT

(0)

相关推荐

  • UC Berkeley 马毅:深度学习的第一性原理

    作者:周寅张皓 导读:寻找深度学习的普适理论一直是学界关注的焦点.在深度学习的工作中,我们常常使用许多经验性的方法,例如选择不同的非线性层,样本的归一化,残差链接,卷积操作等等.这样的方法为网络带来了 ...

  • 视觉增强词向量:我是词向量,我开眼了!

    设为 "星标",重磅干货,第一时间送达! 转载自 | 夕小瑶的卖萌屋 文 | 橙橙子 亲爱的读者,你是否被各种千亿.万亿模型的发布狂轰乱炸,应接不暇,甚至有点产生对大模型的审美疲劳 ...

  • CSSCI期刊主编:论文写作用词的八条建议,保持“零修辞”状态

    论文是否有文采也许并不重要,重要的是不要"矫情"."做作"."媚俗".为了保持学术论文的"零修辞写作"状态,为了防止学术 ...

  • 论文写作:CSSCI期刊主编:论文写作用词的八条建议,保持“零修辞”状态

    论文是否有文采也许并不重要,重要的是不要"矫情"."做作"."媚俗".为了保持学术论文的"零修辞写作"状态,为了防止学术 ...

  • whatlies包 | 简单玩转词向量可视化

    whatlies 可以与spacy语言模型结合,可视化词向量.安装zh_core_web_md.en_core_web_md和whatlies.具体文档可以查看https://github.com/R ...

  • wordexpansion包 | 新增词向量法构建领域词典

    一.项目意义 情感分析大多是基于情感词典对文本数据进行分析,所以情感词典好坏.是否完备充足是文本分析的关键. 目前常用的词典都是基于形容词,有 知网HowNet 大连理工大学情感本体库 但是形容词类型 ...

  • 【Hello NLP】CS224n学习笔记[3]:共现矩阵、SVD与GloVe词向量

    相比于计算机视觉,NLP可能看起来没有那么有趣,这里没有酷炫的图像识别.AI作画.自动驾驶,我们要面对的,几乎都是枯燥的文本.语言.文字.但是,对于人工智能的征途来说,NLP才是皇冠上的那颗珍珠,它美 ...

  • ELMo预训练词向量模型

    引言 Word Embedding:词嵌入.最简单的理解就是:将词进行向量化表示,抽象成为数学描述,然后可以进行建模,应用到很多自然语言处理的下游任务中.之前用语言模型做 Word Embedding ...

  • 【NLP实战】tensorflow词向量训练实战

    实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式.因此,NLP专栏计划推出一个实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试. 本篇介绍自然语言处理中最基础的词向量的训练. 作者 ...

  • 【NLP-词向量】词向量的由来及本质

    词嵌入是所有自然语言处理任务所必须要经历的步骤,非常的重要.词向量在网络上已经有了大量的文章,但是,出于我们专栏的完整性系统性的考虑,笔者还是决定加上这样一个专题. 计划用3-4次,彻底说清楚在自然语 ...