陈根:人工智能的语言学习之路,从挑战到突破
文/陈根
语言作为人们与生俱来的能力,能帮助人们传递很多重要的信息。正因为人类独特的语言能力,人类才具有特殊性。这也是人工智能至今仍在艰难突破的技术桎梏。
究其原因,世界上有千万种不同的语言和方言,既有共通之处,又各自独立不同。此外,每个词汇和句子还会给人一种语义,而这个语义对每个人的反馈又各不相同。语言的复杂性给机器学习带来了挑战。
比如,那么对于同一个语义,不同语言和方言对应反馈都可能有差异,甚至对于不同环境成长的同一语言人群以及同一个人在不同年龄段和不同情绪状态下的反馈都可能不同。
近日,斯坦福大学人工智能实验室(SAIL)发表博客,介绍了其两篇 ACL 2020 论文。这两项研究立足于近段时间 BERT 等神经语言模型的突破性成果,指出了一个颇具潜力的新方向:使用语言解释来辅助学习 NLP 乃至计算机视觉领域的任务。
简单来说,就是针对自然语言处理(NLP)和计算机视觉领域的多种高难度任务,他们首先用语言解释这些任务,然后使用深度神经网络模型来学习这些语言解释,进而帮助解决这些任务。
事实上,BERT 等现代深度神经语言模型已经显现出解决多项语言理解任务的潜力。因此,SAIL 在这两篇论文中提出使用神经语言模型来缓解这些基本问题。这些神经语言模型或以确定相关领域内语言解释为目标,或使用了可以解读语言解释的通用型“知识”来进行预训练。
第一篇论文研究了如何使用语言解释来构建文本分类器,即使用自然语言解释来帮助解决单个任务。基于此,研究人员提出了 ExpBERT 模型,其使用了针对文本蕴涵任务训练的 BERT 模型,BERT 在这一过程中输出的特征可替代上述语义解析器提供的指示特征。
第二篇论文提出一种名为语言塑造型学习(Language Shaped Learning/LSL)的方法,即在训练时使用语言解释,则可以促使模型学习不仅对分类有用的表征,而且该表征还能用于预测语言解释。
语言之精妙彰显了人类之精巧,人工智能想要克服语言的技术桎梏依然还有漫长的路要走,但研究已在路上。在人工智能获得语言能力前,社会也将对其技术进行谨慎的设计,这也是科技时代下必然要面对的问题。