陈根:人工智能——处理语言的机器
文/陈根
20世纪50年代,图灵提出著名的“图灵测试”,引出了自然语言处理的思想,而后,经过半个多世纪的跌宕起伏,历经专家规则系统、统计机器学习、深度学习等一系列基础技术体系的迭代,如今的自然语言处理技术在各个方向都有了显著的进步和提升。
自然语言是指汉语、英语、法语等人们日常使用的语言,是人类社会发展演变而来的语言,而不是人造的语言,自然语言是人类学习生活的重要工具。
自然语言在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的 80%以上。就计算机应用而言,据统计,用于数学计算的仅占10%,用于过程控制的不到5%,其余 85%左右则都是用于语言文字的信息处理。
自然语言处理(Natural Language Processing,NLP)是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言,是一种研究语言能力的模型和算法框架,是语言学和计算机科学的交叉学科,是实现人机间的信息交流,是人工智能、计算机科学和语言学所共同关注的重要方向。
自然语言的处理流程大致可分为五步:
第一步,获取语料。
第二步,对语料进行预处理,其中包括语料清理、分词、词性标注和去停用词等步骤。
第三步,特征化,也就是向量化,主要把分词后的字和词表示成计算机可计算的类型(向量),这样有助于较好的表达不同词之间的相似关系。
第四步,模型训练,包括传统的有监督、半监督和无监督学习模型等,可根据应用需求不同进行选择。
第五步,对建模后的效果进行评价,常用的评测指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而F值是综合准确率和召回率用于反映整体的指标,当 F 值较高时则说明试验方法有效。
比尔·盖茨曾说:“语言理解是人工智能皇冠上的明珠”。可以说,谁掌握了更高级的自然语言处理技术,谁在自然语言处理的技术研发中取得了实质突破,谁就将在日益激烈的人工智能军备竞赛中占得先机。
作为一门包含着计算机科学、人工智能以及语言学的交叉学科,自然语言处理的发展也经历了曲折中发展的过程。
1950 年图灵提出的著名的“图灵测试”,被认为是自然语言处理思想的开端。20世纪50年代到70年代自然语言处理主要采用基于规则的方法,即认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,彼时,自然语言处理还停留在理性主义思潮阶段,以基于规则的方法为代表。
然而,基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。
70 年代以后,随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。
贾里尼克和其领导的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。
从 20世纪 90年代开始,自然语言处理进入了繁荣期。1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者William John Hutchins教授在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。
这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法等等。这种建立在大规模真实文本处理基础上的机器翻译,是机器翻译研究史上的一场革命,它将会把自然语言处理推向一个崭新的阶段。随着机器翻译新纪元的开始,自然语言处理进入了它的繁荣期。
尤其是20世纪90年代的最后5年(1994一1999)以及 21世纪初期,自然语言处理的研究发生了很大的变化,出现了空前繁荣的局面。这主要表现在三个方面。
首先,概率和数据驱动的方法几乎成了自然语言处理的标准方法。句法剖析、词类标注、参照消解和话语处理的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的评测方法。
其次,由于计算机的速度和存储量的增加,使得在语音和语言处理的一些子领域,特别是在语音识别、拼写检查、语法检查这些子领域,有可能进行商品化的开发。语音和语言处理的算 法 开 始 被 应 用 于 增 强 交替 通 信(augmentative and alternative communication,AAC)中。
最后,是网络技术的发展对于自然语言处理产生了的巨大推动力。万维网(World Wide Web,WWW)的发展使得网络上的信息检索和信息抽取的需要变得更加突出,数据挖掘的技术日渐成熟。而 WWW 正是由自然语言构成的,因此,随着 WWW的发展,自然语言处理的研究变得越发重要。
如今,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究, 2013年,word2vec将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。
作为多层的神经网络,深度学习从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。 RNN已经成为自然语言处理最常用的方法之一,GRU、LSTM等模型则相继引发了一轮又一轮的自然语言识别热潮。