陆俭明:为何“人工智能对语言学的研究成果不是不需要,而是用不上”?
本期导读
人工智能发展迅速,已经成为当今社会的“明星”,各个国家都把发展人工智能作为提升国家竞争力、维护国家安全的重大战略。一般以为语言学会在人工智能研究中派上用场,实际并非如此。人工智能对语言学的研究成果不是不需要,而是用不上。文章就此进行了反思,认为亟需解决好中文信息处理和汉语本体研究的接口问题;为此汉语研究须着力进行以下三方面研究:一是需要加强词语和句法格式的句法、语义、语用的特征研究与描写;二是需要加强现代汉语“边缘(periphery)结构”的研究与描写;三是需要加强汉语语言信息结构研究。
题目 | 亟需解决好中文信息处理和汉语本体研究的接口问题
作者 | 陆俭明
来源 |《当代修辞学》 2021年第1期(总223期)
01
语言学在人工智能研究中
起到作用了吗?
进入21世纪,特别是近十来年,人工智能发展迅速,已经成为当今社会的“明星”。许多发达国家和发展中国家都已制定或正在制定人工智能发展计划,都把发展人工智能作为提升国家竞争力、维护国家安全的重大战略。
人工智能可以分为两大类: 一类跟自然语言无关,如电脑下围棋、象棋、汽车、飞机无人驾驶等;另一类跟语言有关,突出的如机器翻译,还有如“聊天机器人”。以汉语为处理对象的自然语言处理即“中文信息处理”,无疑应为后一类人工智能所需要。我们从事语言研究的人更痴心地以为语言学会在人工智能研究中派上用场。然而,当今基于人工神经网络的“机器深度学习”的人工智能研究,与语言学不是结合得更加紧密,而是越来越疏远了。这说明语言学、中文信息处理在人工智能研究中并未发挥应有的作用。无怪乎不论是不同级别部门领导的谈话,还是众多学者、专家的谈论,说到人工智能都会说“这有众多的学科参与”,然而大家都没提到语言学。
02
原因在哪里?
原因在哪里? 大家都知道,人工智能完全靠计算。所计算的是具有多模态的、变量的目标函数,计算机凭借云计算、移动互联网所获得的大数据,以及不断优化的算法、算力,能很快求解那一个个具有多模态变量的目标函数。人工智能的快速发展,就靠那“数据”“算力”和“算法”这三驾马车的驱动。“数据”“算力”和“算法”堪称“人工智能三要素”,是人工智能三个必备条件。
“数据”,是人工智能第一必备条件,有人称之为“人工智能发展的重要燃料”,将其比喻为把一个婴儿培养为杰出人才所喂的“奶粉”。因为人工智能的根基是训练,而训练就要求必须有覆盖面越广越好(能覆盖各种各样情景)、信息量越大越好、维度越多越好的数据,这样才能得到一个表现越来越令人满意的模型,才能获得最佳智能。
“算力”,指运算、处理能力,是人工智能第二个必备条件。它是人工智能发展的动力和引擎,是人工智能发展的技术保障。算力的核心在芯片,它需要芯片支撑。
“算法”,指计算机用来“解题”的精确、有效的运算方法。也是人工智能必不可少的条件,而且可以说“算法是人工智能的'根’”。算法可分基础算法和应用算法,对人工智能来说最需要的是基础算法。
目前关涉语言的那类人工智能,其发展主要是靠不断提升计算机的“技能”,并未真正提升计算机的“智能”。智能,“指的是一种适应环境的能力,即能随着经验的增长或环境的变化而不断调整、完善自我的能力”(引自网易)。目前计算机缺乏这种能力,正如张钹院士所指出的——“人类理性智能主要来源于两个方面:一是先前的知识与经验,二是推理能力”“机器还没有上升到认知层面,鲁棒性差,完全没有'自知之明’”“机器尽管能识别不同的物体,但它本质上并不认识这个物体,机器只有感觉,没有感知”。怎么样让机器有“自知之明”?到现在为止,人类还没有解决。计算机为什么在“智能”方面的能力提高不快呢?一个很重要的原因是,“数据”这一驾马车,没能很好驱动,原因是“数据”这一驾马车有一个轮子缺乏“有效的语言知识”,无怪乎目前各类机器翻译问题多多。清华大学张钹院士在2019年7月30日举行的“知识智能高峰论坛暨清华大学(计算机系)—中国工程科技知识中心'知识智能联合研究中心’年度报告会”上就举了这样一个很形象的例子,如果让机器翻译“说你行的人行”这句话,机器翻译的结果可能是: Talk about the pedestrian line of your profession(谈论你专业的人行道),这就完全背离了原意。再如,有一段中文原文是:
(1) 这位已过不惑之年的上海爱建信托投资公司总经理精力过人。早晨鸡鸣即起,晚上三更方睡。
某在线机器翻译系统翻译为:
(2) The general manager of the Shanghai Aijian Trust and Investment Company,who has passed by for many years,has extraordinary energy.In the morning,the cock crows and sleeps at night.
“不惑之年”被翻译为pass by for many years(过世多年);“早晨鸡鸣即起,晚上三更方睡” 的主语是“总经理”,但译文里是cock(鸡) 。
语言学介入人工智能,只能介入“数据”部分。介入什么?有效的语言知识。语言知识怎么介入?靠中文信息处理。中文信息处理可视为语言学与人工智能之间的桥梁。中文信息处理,一头要与语言学接口,一头要跟人工智能接口。现在的状况是汉语本体研究成果没能在人工智能研究中派上用场。问题出在哪里?只有四种可能:一是目前的汉语研究成果没有用;二是中文信息处理没处理好; 三是中文信息处理与汉语本体研究的接口没解决好; 四是中文信息处理与人工智能之间的接口没解决好。显然,为进一步推进我国语言类人工智能的发展,得让“数据”这驾马车的所有轮子都动起来,这就必须既要从汉语本体研究方面找原因,也要从中文信息处理与汉语本体研究的接口上找原因,也要从中文信息处理跟人工智能接口上找原因。
03
反思汉语本体研究,
亟需做好三件事
我们汉语本体研究不断地继承、发展,做了大量的工作,产出了大批的研究成果,无论是语音、词汇还是语法、修辞语用方面,但面对人工智能的汉语研究我们也确实需要反思。
我们现在的汉语研究更多地注重“理论”思辨,注重对语言现象的“解释”。这就语言研究本身而言很需要,无可非议。但从人工智能对语言学的需求来看,这样的汉语研究,其研究成果并不能为人工智能提供“有效的语言知识”数据。这就要求从事汉语本体研究的学者要关注并尽快了解中文信息处理、人工智能对语言研究的具体需求。就我们现有的认识而言,我们认为,为了能解决好中文信息处理与汉语本体研究之间的接口问题,为了能为人工智能提供所需的“有效语言知识”,今后汉语本体研究亟需做好下面三件事:
第一件事,需要加强词语和句法格式的句法、语义、语用的特征研究与描写。
大家都知道,中文信息处理经历了基于规则到基于统计到计算机自我学习这样的发展过程。所谓“计算机深度学习”,就是“从原始特征出发自动学习高级特征组合”。就目前大家的认识而言,语言符号担负并最后出色完成传递信息任务,靠的是两种知识:一是范畴(category)知识,二是规则(rule)知识。范畴知识有句法的、语义的、语用的。句法的如主语、谓语、宾语、定语以及名词、动词、形容词等;语义的如施事、受事、工具以及数量、领属、自主等;语用的如话题、评述、焦点、语境、前景信息、背景信息、隐喻、转喻等。范畴用来刻画语言对象的一个个特征。规则是用来表述范畴间的关系的。一个范畴可能刻画为几个特征,一个特征也可能用于刻画多个不同的范畴。所有规则都是建立在已知的或者更确切地说是假设的范畴的基础上的。所有规则,从逻辑上来说,都可以表示为p→q这样的蕴涵式。
比如:如果某个词W是名词(p),那么W能作主语(q)。这条规则在“名词”跟“主语”两个范畴间建立起了一种联系。再比如:如果句首是一个已知的处所/时间成分,那么由这个句子所呈现的汉语信息结构,句首的处所/时间成分就是话题。这条规则在“句首的处所/时间成分”跟汉语“话题”这两个范畴间建立起了一种联系。以这样的方式建立范畴之间的联系,是分析语言符号结构时必不可少的。语言学家所要做的,就是在海量的语料中找出(实际是归纳、概括出)正确的、和谐的联系。自然语言处理中(处理汉语就是“中文信息处理”) ,范畴知识用词库来负载,规则知识由规则库(规则的集合)来承担。自然语言处理就是利用这些词库和规则库,按研究者的需要进行运算、分析,然后研究者根据计算机的分析结果,不断适切调整范畴体系、具体语言成分的属性取值以及相关的规则,即不断改进、完善词库和规则库的内容。
范畴知识,无论是语义的、语法的还是语用的,事实上主要都集中在词语身上。要让计算机掌握范畴知识,并能据此加以运算,就必须细致刻画每个词语可能具有的语义、语法、语用的特征。规则知识则集中在范畴与范畴的不同联系上。要让计算机掌握规则知识,就必须细致刻画各个范畴之间可能具有的各个不同联系所特有的特征。显然,真要让汉语本体研究成果在人工智能研究中派上用场,必须加强对汉语中各个范畴、各种规则的特征的研究与描写。而这正是我们汉语研究的软肋,以往在这方面基本没有什么研究。
特征研究与描写并非易事。词与词是互为特征的,就范畴而言,一个词,无论是它的语义的、语法的或语用的特征,真要细致刻画的话,都会形成一个个“特征框架”,甚至会形成一个“特征网络”。譬如“前夫”其语义特征是:男性,成人,曾结过婚,已离异,可再婚……其语法特征是:名词,可作主语、宾语、定语,可带定语,可带数量词,可单说,不能做谓语、补语,不能带宾语、补语……其语用特征是:可作话题,可成为焦点,不作评述;其语境特征是从离婚后的女人角度说到她原先的配偶时才用……图示如下:
问题是用来说明“前夫”特征的每一个词本身又会是一个“特征网络”。可见,任何一个词都是一个复杂的“特征网络”。看来,Pollard&Sag的中心词驱动的短语结构文法(HPSG)采用复杂特征(complex feature set)和合一(unification)运算的方法来实行计算机对句子的理解与生成,大方向是对的。
对于各种规则特征,如何提取,如何描写,现在真还没有头绪。譬如,从语法上来说,词与词之间,有主谓关系、述宾关系、述补关系、联合关系、“定-中”修饰关系、“状-中”修饰关系等等。由于汉语属于非形态语言,汉语的词与句法成分不是一对一的关系,是一对多的关系,我们就难以将各种句法关系加以形式化表示。譬如,不能像印欧语那样,将主谓关系形式化表示为NP + VP,将述宾关系形式化表示为V + NP。例如“景颇语调查”是N + V,可并非一定是主谓关系,也可以是“定-中”修饰关系;“调查材料”是V + N,可是它只被理解为“定-中”修饰关系,不会被理解为述宾关系。又如:a)“解释很清楚”,b)“解释清楚”,都是V+ AP,可是a)只能理解为主谓关系; b)则既可以理解为主谓关系,也可以理解为述补关系。原因在于汉语动词、形容词原本都表示陈述,有时由于表达的需要,要让它们表示指称,作名词用,但在汉语里不会像印欧语那样发生名词化转化,没有任何形式标志。这就给规则特征的认定与描写带来极大的麻烦。至于语用规则的特征如何认定与描写,目前更是一头雾水。原因是过去大家从未往这方面想,从来没有深入考虑过语法、语义、语用规则的认定与描写。然而这是中文信息处理的需要,人工智能研究的需要,汉语学界应该在这方面加大研究力度,早日做出成绩来。更需要指出的是,在交际过程中,编码也好解码也好,实际运作的是概念与概念结构,语言只是一个介质,只是一个媒介,只起提示作用。另外,句子表面所显示的仅仅是所要传递的信息的一小部分,大量的知识是交际双方共有的经验知识,都是隐含的。特征描写必须详尽描写全部显性的、隐含的特征。为了确保刻画、描写特征能做到尽可能详尽,这就很需要以认知语言学关联理论作指导。
“关联理论”是由Sperber&Wilson共同提出来的。其核心是两条关联原则——第一条原则叫关联的认知原则(the Cognitive Principle of relevance),是说人类的认知倾向于凡认知所及一定与最大程度的关联性相吻合。第二条原则叫关联的交际原则(the Communicative Principle of relevance),是说每一个成功的交际话语都应设想其话语的明示和推理都具备最佳的关联性。“关联”可视为人类认知的基础之一,源于客观世界——天地万物,大千世界的种种事物与现象,皆相互联系。最为核心的关系是因果关系。笛卡尔最先提出了“因果链条”假设,认为“物质世界是按照因果机械规律运行的”。牛顿的研究成果证实了这一假设,牛顿经典力学成了体现这种信念的第一个成功范例。
我们来刻画词语语义、语法、语用的特征时,刻画各种规则特征时,一定要有这种“关联”的意识,力求所刻画词语的“特征网络”规则的“特征网络”,达到最大关联、最佳关联。当然,在刻画、描写词语特征时,肯定还会遇到其他意想不到的问题,那只能顺时应对。
第二个方面,需要加强现代汉语“边缘结构”的研究与描写。
众所周知,语言里既有核心(core)结构,又有边缘(periphery)结构。对于核心结构,如“约翰喝了一杯牛奶”“张萍是北京大学的博士生”,都可以按已有的“范畴+ 规则”去加以分析描写。可是语言里并不只有这些核心结构,还有大量的边缘结构,就难以按已有的“范畴+ 规则”去加以分析描写。如英语里的let alone 和What's X doing Y。现代汉语里如:
(3) 开夜车开的 | 游泳游的 | 睡觉睡的 | 他是犹犹豫豫犹的
(4) 男人中的男人 | 尖子中的尖子 | 奇迹中的奇迹
(5) 爱去不去 | 爱听不听 | 爱吃不吃 | 爱看不看
这种边缘结构在科技文献中一般很少出现,但在一般文本中随处可见。中文信息处理必须要去处理这些边缘结构。请看下面任正非有一次在接受采访时所说的一段话:
目前这种形势,我们确实会受到影响,但也能刺激中国踏踏实实发展电子工业。过去的方针是砸钱,芯片光砸钱不行,要砸数学家、物理学家等。
任正非说的“砸钱、砸数学家、砸物理学家”,我们都能理解,知道不是“拿着锤子去砸东西、砸人”的意思;可是计算机则很难掌握这里的“砸”的意思。中文信息处理需要处理这类特殊结构。这种特殊结构有多种类型:
1) 全凝固型,如“用脚投票、羡慕嫉妒恨、买面子”等;
2) 半凝固型,如“V + 来+ V + 去”(吃来吃去、商量来商量去),“N + 百出”(错误百出、花样百出) ;
3) 短语型,如“N 中的N”(天才中的天才) 、“不是+ N + 的+ N”(不是办法的办法)等;
4) 复句型,如“别说是X,就是Y也Z”(别说是他只有一张嘴,就是有一百张嘴也说不清 | 别说是在中国,就是在外国也享有盛誉) 、“V + 也+ 不是,不+ V + 也+ 不是”(看也不是,不看也不是 | 走也不是,不走也不是) 。
我们北京大学中国语言学研究中心和计算语言学研究中心合作,已由詹卫东教授主持建了个“现代汉语构式知识描述数据库”,这是一个社科重大项目。目前已收录、分析、描写了1000多个构式。“现代汉语构式知识描述数据库”对每条构式的描述信息如下:
1) 该构式的基本信息——有关该构式的形式、意义的“聚合”特征;
2) 该构式句法功能信息——有关该构式入句组合可能有的句法功能“聚合”特征;
3) 该构式语用、语境信息——有关该构式在交际中依赖的环境“聚合”特征。
中文信息处理要处理这类边缘结构,我们汉语本体研究则有义务要为中文信息处理提供这方面资源。
第三个方面,加强汉语“语言信息结构”研究。
为什么要加强语言信息结构研究?我们知道,语言最本质的功能是传递信息。说话人要将自己对客观事物或现象的种种感知传递给他人,中间会进行两次复杂的加工:
第一次加工在说话者认知域内进行,主要将自己通过某些感觉器官所感知形成的直感形象或直觉以及由此形成的意象图式,运用内在语言(IL)将其加工为概念结构、概念框架。
第二次加工是说话者根据自身的交际意图、言谈交际环境、听话人情况等的不同或变化,将自己在认知域中已形成的概念结构、概念框架运用外在语言(EL)转化为所要传递的信息。
在第二次加工中,主要运用语言系统中的动态单位句子来传递说话者想要传递的信息;而在这次加工中,还需要解决好两个问题:一是如何将作为句子建筑材料的词,按所传递信息的需要,很合理地组合成句子?二是如何确保信息传递符合交际需求?要知道,信息传递要求遵循以下四个基本原则:清晰性、连贯性、稳定性、顺畅性。在第二次加工中,传递一个信息,往往需要用到十几个乃至更多的词。假如只是孤立地将那些词一个个罗列出来,一方面孤立的词义不能形成关联语义,更无法生成句义;另一方面从量上来说,也会受到人的认知域的7±2 记忆法则的制约。因此,借以传递信息的句子,其内部所包含的若干个词,必须依据所传递的信息及其复杂程度,进行层层打包组块,最好还能给个标记。
那么凭借语言所传递的信息何以能形成一个信息结构呢?须知凭借语言的句子等动态单位所传递的信息会形成一个像流水那样的信息流(information flow)。在这信息流中,一般包含多种信息元素,诸如:
a) 说话人所要谈论的话题;
b) 说话人有必要传递给听话人的某些已知的旧信息;
c) 说话人最想要传递给听话人的种种未知的新信息;
d) 为使听话人便于了解与明白所传递的信息而附加的某些背景信息;
e) 为表明人际关系等而附加的情态信息;
f) 为确保所传递的信息前后能衔接而附加的衔接性信息;
g) 某些标记性信息元素;
……
这众多的信息元素,显然不会在一个层面上,它们也必然要加以组合,使信息流具有结构的性质,从而确保信息传递的清晰与稳定。现在我们大致可以将“语言信息结构”定义为:
语言信息结构指人与人之间进行言语交际时,凭借语言这一载体传递信息所形成的、由不在一个层面上的种种信息元素所组合成的、以信息流形态呈现的一种结构。
现在大家都确认,印欧语属于形态语言,属于“主语型”语言;汉语则属于非形态语言,属于“话题型”语言。因此,在句子平面上,英语更多地会受句法规则的制约,而汉语更多地会受信息传递的影响。譬如,有这样一个事件结构:
我打篮球了,我是和李洪军一起打篮球,时间是昨天。
在汉语里,我们当然可以拿“我”作话题,说成:
(6) 我昨天和李洪军打篮球了。
但是我们也可以拿“李洪军”作话题,也可以拿“昨天”作话题,也可以拿“我和李洪军打篮球”这一事件作话题。拿什么作话题就将它居于句首,而且无需进行名词化加工,直接说成:
(7) 李洪军我昨天和他打篮球了。
(8) 昨天我和李洪军打篮球了。
(9) 我和李洪军打篮球是在昨天。
可是英语就不行。英语一般说成:
(10) I played basketball with LI Hongjun yesterday.
或者采用“准分裂句”( pseudo-cleft sentence) 的说法,说成:
(11) The time I played basketball with Li Hongjun was yesterday.
反正yesterday 不能直接踞于句首。常见的是说成:
(12) It was yesterday that I played basketball with LI Hongjun.
不难发现,汉语句子的词序基本按语言信息结构的规则要求加以排列——话题居句首,句子的信息焦点一般居句尾,未知信息单元一般位于已知信息单元之后;核心动词前如果出现多个信息单元,那么信息已知程度高的居于已知程度低的之前;核心动词后如果出现多个信息单元,那么未知程度高的居于未知程度低的之后……英语则更多地受语言本身的语法规则制约。突出的表现在:第一,时间状语得置句尾;第二,由前置词引介的行为动作的伴随者(如上例LI Hongjun)不能出现在动词之前。
显然,汉语本体研究极需要加强对汉语语言信息结构的研究。而从中文信息处理和人工智能研究的角度来说,更需要加强汉语语言信息结构研究。
04
结 语
当然,中文信息处理、人工智能研究,对汉语本体研究可能还会有其他方面的要求,但是,就我们目前的认识,为能使汉语本体研究成果在我们的人工智能研究中派上用场,汉语学界必须加强特征研究和特征描写,必须做好边缘型结构的研究与描写,必须加强对汉语语言信息结构的研究。中文信息处理方面,是否也值得反思,深入去找找原因——自身做得如何?跟汉语本体研究接口做得如何?跟人工智能研究的接口做得如何?对汉语本体研究还需要有什么样的要求?这都得由从事中文信息处理的同道去思考了。
(全文及参考文献见《当代修辞学》 2021年第1期(总223期),第1-9页。本期推文为节选摘录,略有删减和编辑)
《当代修辞学》 2021年第1期(总223期)
转自 | 复旦新学术
本期编辑:长乐