陈根:人工智能——处理语言的机器

文/陈根

20世纪50年代,图灵提出著名的“图灵测试”,引出了自然语言处理的思想,而后,经过半个多世纪的跌宕起伏,历经专家规则系统、统计机器学习、深度学习等一系列基础技术体系的迭代,如今的自然语言处理技术在各个方向都有了显著的进步和提升。

自然语言是指汉语、英语、法语等人们日常使用的语言,是人类社会发展演变而来的语言,而不是人造的语言,自然语言是人类学习生活的重要工具。

自然语言在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的 80%以上。就计算机应用而言,据统计,用于数学计算的仅占10%,用于过程控制的不到5%,其余 85%左右则都是用于语言文字的信息处理。

自然语言处理(Natural Language Processing,NLP)是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言,是一种研究语言能力的模型和算法框架,是语言学和计算机科学的交叉学科,是实现人机间的信息交流,是人工智能、计算机科学和语言学所共同关注的重要方向。

自然语言的处理流程大致可分为五步

第一步,获取语料。

第二步,对语料进行预处理,其中包括语料清理、分词、词性标注和去停用词等步骤。

第三步,特征化,也就是向量化,主要把分词后的字和词表示成计算机可计算的类型(向量),这样有助于较好的表达不同词之间的相似关系。

第四步,模型训练,包括传统的有监督、半监督和无监督学习模型等,可根据应用需求不同进行选择。

第五步,对建模后的效果进行评价,常用的评测指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而F值是综合准确率和召回率用于反映整体的指标,当 F 值较高时则说明试验方法有效。

比尔·盖茨曾说:“语言理解是人工智能皇冠上的明珠”。可以说,谁掌握了更高级的自然语言处理技术,谁在自然语言处理的技术研发中取得了实质突破,谁就将在日益激烈的人工智能军备竞赛中占得先机。

作为一门包含着计算机科学、人工智能以及语言学的交叉学科,自然语言处理的发展也经历了曲折中发展的过程

1950 年图灵提出的著名的“图灵测试”,被认为是自然语言处理思想的开端。20世纪50年代到70年代自然语言处理主要采用基于规则的方法,即认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,彼时,自然语言处理还停留在理性主义思潮阶段,以基于规则的方法为代表。

然而,基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。

70 年代以后,随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。

贾里尼克和其领导的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

从 20世纪 90年代开始,自然语言处理进入了繁荣期。1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者William John Hutchins教授在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。

这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法等等。这种建立在大规模真实文本处理基础上的机器翻译,是机器翻译研究史上的一场革命,它将会把自然语言处理推向一个崭新的阶段。随着机器翻译新纪元的开始,自然语言处理进入了它的繁荣期。

尤其是20世纪90年代的最后5年(1994一1999)以及 21世纪初期,自然语言处理的研究发生了很大的变化,出现了空前繁荣的局面。这主要表现在三个方面。

首先,概率和数据驱动的方法几乎成了自然语言处理的标准方法。句法剖析、词类标注、参照消解和话语处理的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的评测方法。

其次,由于计算机的速度和存储量的增加,使得在语音和语言处理的一些子领域,特别是在语音识别、拼写检查、语法检查这些子领域,有可能进行商品化的开发。语音和语言处理的算 法 开 始 被 应 用 于 增 强 交替 通 信(augmentative and alternative communication,AAC)中。

最后,是网络技术的发展对于自然语言处理产生了的巨大推动力。万维网(World Wide Web,WWW)的发展使得网络上的信息检索和信息抽取的需要变得更加突出,数据挖掘的技术日渐成熟。而 WWW 正是由自然语言构成的,因此,随着 WWW的发展,自然语言处理的研究变得越发重要。

如今,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究, 2013年,word2vec将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。

作为多层的神经网络,深度学习从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。 RNN已经成为自然语言处理最常用的方法之一,GRU、LSTM等模型则相继引发了一轮又一轮的自然语言识别热潮。

(0)

相关推荐

  • Facebook成立人工智能语言研究联盟,致力于解决自然语言处理挑战

    近日,Facebook建议在三个支领域研究自然语言处理(NLP),这是一项关于语言学.人工智能与计算机语言的相互作用的跨学科研究. 它专门寻找针对NLP的专业深度学习方法,以及计算效率高的NLP,其最 ...

  • 自然语言处理 NLP 发展简史

    从语言结构化理论基础,到 1750 亿参数的 GPT-3.一部 NLP 的百年发展史. 语言的结构化 20 世纪初,在瑞士的日内瓦大学,一位名叫费迪南德·德·索绪尔( Ferdinand de Sau ...

  • 网信课堂 | 人工智能语料库技术是什么?来看科普!

    国际传播人工智能翻译语料库是指基于互联网平台,运用以神经机器翻译技术为基础的人工智能翻译技术,对国际传播等相关领域的语料进行数据化处理和加工,建立系统对外传播党政文献,领导人著作.讲话及外宣图书,期刊 ...

  • NLP:自然语言处理技术的简介、发展历史、案例应用之详细攻略

    NLP:自然语言处理技术的简介.发展历史.案例应用之详细攻略 相关文章 NLP:自然语言处理技术的简介.发展历史.案例应用之详细攻略 Paper之ACL&EMNLP:2009年~2019年AC ...

  • 陈根:算法个性化和创作机器化,人工智能在艺术

    文/陈根 随着人工智能技术的不断发展,其所影响到的行业范围也变得越来越广,尤其是在各行各业的落地实践与应用.从医疗教育到司法金融,无不呈现出一片"百花齐放"的盎然景象. 人工智能技 ...

  • 陈根:机器与艺术,人工智能重构创作法则

    陈根 知名科技作家为你解读科技与生活的方方面面.1小时前 文/陈根 随着人工智能技术的不断发展,其所影响到的行业范围也变得越来越广,尤其是在各行各业的落地实践与应用,从医疗教育到司法金融,无不呈现出一 ...

  • 陈根:人工智能的语言学习之路,从挑战到突破

    文/陈根 语言作为人们与生俱来的能力,能帮助人们传递很多重要的信息.正因为人类独特的语言能力,人类才具有特殊性.这也是人工智能至今仍在艰难突破的技术桎梏. 究其原因,世界上有千万种不同的语言和方言,既 ...

  • 陈根:32种语言可翻译,人工智能追赶翻译需求

    文/陈根 利用计算机把一种自然语言转变成另一种自然语言的过程就是机器翻译. 机器翻译对于信息时代下海量信息的捕获无疑具有重要作用,事实上,人们对于机器翻译的需求也与日俱增.除了专业的出版水平的翻译,机 ...

  • 陈根:人工智能助力医疗,追溯癌症起源

    文/陈根 人工智能在医疗卫生领域广泛应用正形成全球共识.可以说,人工智能以独特的方式捍卫着人类健康福祉,除了在诊疗手术.就医管理.医疗保险发挥作用,基于算法的人工智能近年来更是推动着疾病诊断与药物研究 ...

  • 陈根:人工智能,助力T细胞标靶预测

    文/陈根 特异性免疫(specific immunity)又称获得性免疫或适应性免疫,它是由人体经后天感染(病愈或无症状的感染)或人工预防接种(菌苗.疫苗.类毒素.免疫球蛋白等)之后,而使机体获得的一 ...

  • 陈根:用人工智能,解决“声子态密度”

    文/陈根 人工智能.大数据.量子力学以及超级计算的结合,加深了人们对材料的理解,并且使人们不再只是依赖人类直觉去发现新材料. 事实上,过往的重大材料的发现都是科学家偶然间或者多次试验得到的.例如,人们 ...

  • 陈根:人工智能入场癌症预测,精确且及时

    文/陈根 人工智能作为一种新兴的颠覆性技术,正在逐步释放着科技革命和产业变革积蓄的巨大能量,并深刻改变了人类生产生活方式和思维方式.可以说,人工智能已然对经济发展.社会进步等方面产生重大而深远的影响. ...

  • 陈根:人工智能下场设计,可否拥有真正的思维?

    文/陈根 百度公司董事长李彦宏曾无数次提到"未来是人工智能的时代".对此,前百度首席研究员吴恩达解释说,未来有些事情可以不由人类大脑,而由人工智能把人从重复性的琐事劳动中解放出来, ...