2019年12月1日上午,第九届吴文俊人工智能科学技术奖颁奖典礼暨2019中国人工智能产业年会分论坛——“知识智能及其产业应用论坛”在苏州召开。
本次论坛作为2019中国人工智能产业年会的重要组成部分,由报告发布和尖峰对话两大环节组成,旨在围绕知识智能机器产业应用问题,汇聚政界、学术界、产业界的高端智慧,就智能化服务对机器认知智能所提出的新要求、认知智能在产业应用方面取得的突破与创新等议题进行了研讨交流。
清华大学计算机科学与技术系副主任、国家杰青唐杰教授清华大学计算机科学与技术系副主任、国家杰青唐杰教授主持了本次论坛。报告内容涵盖基于知识智能的机器人技能学习、自然语言与理解、偏标记学习的研究、面向智慧教育的学生认知建模与学习路径推荐、XLNet、图神经网络及认知推理、NL2SQL技术及其在BI增强分析中的应用七个主题。报告结束后,大会组委会向各位专家颁发了感谢证书。清华大学计算机科学与技术系教授、中国人工智能学会副理事长、国家杰青孙富春清华大学计算机科学与技术系教授、中国人工智能学会副理事长、国家杰青孙富春发表了题为《基于知识智能的机器人技能学习》的报告。报告分为五个部分,分别为大脑启发的行为智能、基于经验的灵巧操作、知识和数据结合的灵巧操作、团队的主要工作、未来展望。其中,重点讨论了操作示范与技能传授、灵巧操作技能的运动规划与协调控制、操作技能的多层次知识化表达、操作数据/知识库和基于知识智能的多任务操作技能迁移学习与技能增强,以及机器人灵巧操作的未来发展。苏州大学周国栋教授带来了题为《自然语言与理解》报告,从自然语言理解层面探讨了如何提高自然语言处理能力,特别是自然语言本质特点、自然语言处理核心任务、篇章理解与知识图谱等内容。周教授强调:“语言是多层次的,第一线语言是自发性的,第二线语言就是写文本,第三线是舞蹈、艺术、绘画,语言本质上是一个非常复杂的系统。”针对现场观众提出的“口语交谈过程中有没有一些归纳模型?我想抽取一些关键信息,有没有这方面的研究?”的问题,周教授回答道:“归纳模型主要在篇章里面做。例如八股文有一种写作方式,通过结构可以分析出来有哪几种八股文。宏观篇章语义学方面网上有很多总结,有20多种,每一种类型都不一样,做了细分。口语也不一样,因果关系怎么展开都是有模式的,并不是那么准确,都有一些结构图,就是宏观篇章。”东南大学计算机科学与工程学院张敏灵教授在题为《偏标记学习的研究》的报告中,对偏标记学习的研究现状做了全面梳理总结。他从三方面内容介绍了偏标记学习的研究现状:一是,简要讨论偏标记学习的问题设置及其与相关弱监督学习框架的关系;二是,对现有偏标记学习算法进行总结并介绍我们在该方面的最新工作;三是,给出偏标记学习的相关学术资源。他在报告中指出:“当我们设计一系列标记训练样本之后,交给监督学习算法可以得到一个预算模型。我们可以基于这个预算模型预测新对象的标记,传统监督学习里面有一个重要概念就是标记,通常叫做监督信息。”他详细解释了传统监督信息的“强监督建设”假设含义、偏标记学习整个框架的设计及偏标记学习与其他学习模式的对比。同时,张教授也强调:“机器学习最核心的是解决算法研究。计算机科学就是一个关于算法的科学,机器学习的核心研究问题也是算法。”从算法问题出发,张教授又详细讲解了偏标记学习问题的最终目标,即“构建一个多类分类器,得到一个特征空间到标记空间的映射”。中国科学技术大学计算机科学与技术学院副院长、国家杰青陈恩红在《面向智慧教育的学生认知建模与学习路径推荐》的报告中,介绍了从大规模异构学习数据中对学生进行认知诊断和知识跟踪的机器学习模型,以及基于学习者认知结构的自适应学习路径推荐方法。他指出“传统针对学生诊断的认知模型存在几个方面的问题,最主要的问题是:函数是人工设计,大部分都是一种线性理论关系。学生做题是一个阶段的,动态过程无法描述,并由此分析了当前诊断学生认知能力的不同模型及其构建体系。循环智能(Recurrent AI)联合创始人杨植麟循环智能(Recurrent AI)联合创始人杨植麟重点介绍了XLNet模型的核心设计思想,强调XLNet模型具有显著优势,其指出:“在NLP领域很难有大规模的标记数据,在互联网上很容易获取到一千倍以上,甚至比这个更大的数据集,这些数据集是没有标注的,怎么把它们炼成金,提升下游任务的表现,这是我们想解决的问题。”同时,杨植麟也在报告中探讨了XLNet模型在NLP技术落地中发挥的重要作用。北京智谱华章科技有限公司CTO张鹏作了题为《图神经网络与认知推理》的报告。他首先从算法角度分析当下经典的图表示学习算法(DeepWalk、LINE、node2vec等)的本质关系,并提出统一算法框架NetMF和大规模版本NetSMF,并在稀疏图理论的基础上提出高效快速学习算法ProNE,ProNE在精度不降低的情况下比传统学习算法快10-400倍的加速比。张鹏简单回顾了图卷积网络(GCN)并探讨如何提高GCN在图数据上的表示学习能力。并指出其所在团队研究出可以有效的提高GCN表示能力的方法,该方法可以等价表示为图注意力网络(GAT),并在包括阿里巴巴等多个超大规模数据集上得到应用验证。最后张鹏讲解了在图神经网络基础上的认知推理模型CognitiveGraph (CogGraph)。其指出,CogGraph基于认知科学中的双通道认知理论,其中通道一负责直觉认知,通道二负责推理认知。CogGraph可以广泛应用于多个图数据上的任务,包括基于推理的问答、知识图谱补齐等。百分点CTO刘译璟带来了题为《基于自然语言处理和深度学习的NL2SQL技术及其在BI增强分析中的应用》的报告。他从介绍AI+BI组合的是视频入手,指出“BI是所有企业做大数据项目时候的第一项内容,企业往往要把业务里面很多的指标维度等抽出来,构建一个经营分析的模型。基本上来说,所有数据、标准模型构建好之后做一些数据可视化的工作报告,最后支持企业决策。”并由此重点介绍了CleverBI中智能问答功能的应用场景、实现原理、技术架构和实践效果。专家报告环节结束后,与会专家进行了尖峰对话。该对话共探讨了三个问题。首先,论坛主持人唐杰教授提出问题:“一方面人工智能需要大量知识图谱、知识体系来支撑,我们也做了很多预训练,更多地想从计算、机器学习包括语言数据上增强学习。另一方面,通过这种学习方法的自动构建,能让机器自动完成很多事情,未来有没有可能有另外一个趋势,不需要知识图谱,完全从机器学习的角度上自动构建一些语义模型,甚至开展一些语义推理?这是两个不同的发展方向,大家如何看待?”针对这一问题,孙富春教授认为:“符号和数据是互相补充的,但是不会走到一起,这是两个不同的认知阶段。大家都知道人是如何进行推理的,很多都是通过从符号到脉冲来实现。有一部分是模拟人底层数据里隐含的知识然后找到映射关系。最后实际上做的都是一些知识层面的东西,通过数据获得知识。另一方面有很多知识是通过知识本身去学习得到的。”周国栋教授则认为:“这两个方面是相辅相成的,怎么用模型把可计算的网络做出来,如何把它们两者结合起来是最主要的。”张鹏表示:“符号作用和数据计算算法作用其实是不可分割的。我个人认为,知识之所以能够有这么长时间的积累,最重要的一点就是人从数据中学到知识之后,能够抽象表达以及传承下去,这是一个非常重要的能力,这个能力是其他物种所不具备的,为什么能够传承下去?就是把数据抽象成为符号,便于学习和传承。从数据当中抽取知识,把知识传承再利用,再去分析新的数据,得到新的知识,这是一个互相迭代的过程,人工智能还是要向人的方向迈进。”张敏灵教授从自己的研究领域出发,表示:“过去是计算跟知识结合,以前最开始做的是手工设计知识,然后再去做学习,这是计算。后来有了深度学习,特征不用自己去设计了,可以从数据中学习,这个时候知识还是在的,因为我们要去通过神经网络来调整模型,知识还在里面。现在模型也可以自己学了,知识还是人设计的,知识还在里面,人工智能无论什么时候都是有多少人工就有多少智能,知识和计算这二者之间是永远不可能分开的,只是换一种不同形式体现在智能过程中,随着算力、数据资源的不断增长,可能形式体现出来是不一样的,但是我认为人工智能还是有多少人工,就有多少智能。”陈恩红教授认为:“符号主义对应更多的是推理,背后的哲学理念是理性主义。机器学习或者连接主义对应的主要是归纳,背后对应的主要是经验主义。历史告诉我们经验主义、理性主义两者缺一不可,对人来说,也是演绎、归纳两个都要用到。这两个肯定会融合,但是我们再反过来说,推理跟计算,以前最早的时候人们认为推理更高一层,计算相对更Low一点。现在数学研究表明,推理跟计算是一回事,推理也是一种计算。从这个角度来讲,是不是所有东西都可以归结到学习或者计算上?我觉得也是可能的,最后都是以一种计算而已。最后一点,如果我们从康德哲学来看,会认为人有先天认知的范畴。人的认知跟小狗的认知是天然不一样的,人能区分色彩,狗则无法区分色彩。人有先天不同的认知范畴,对世界的认识度也是不一样的。最后即使所有东西都转化成了计算,这个计算最初的若干内容很有可能还是人工设计的,确实能学出来,但学出来的内容人是不能理解的。”青年学者杨植麟也针对这一问题表达了自己的观点:“我认为短时间内计算是大势所趋,这个已经得到了很多验证,这使得我们越来越把知识必要性抽象到更高层级的东西,所有计算方法都会成为最有效果、最好的方法。短时间内计算方式肯定会是一个主流。但现在来看,AI计算方式会遇到一个瓶颈。那就是没有办法解决强人工,包括前面几位老师所说,没有办法解决强人工智能问题。”“我认为符号主义和计算的思维融合,是一个必然的趋势,但是可能会发生在若干年后的未来,现在大概率的发生方式,还是用计算的方式去做这种符号主义,或者把符号主义的这种思想作为一种归纳编制放到这种计算方法中去,不是手工设计这个符号具体长什么样,而是一个融合。现在看符号主义的东西可能就比较像30年前看机器学习,是处于一个弱势的状态,但好就好在学术可能是一个百家争鸣的东西。我们有一天会看到,人类能把符号主义和计算方法一起结合,然后做出一个强人工智能。”除了针对上述问题的讨论,现场观众也向在座嘉宾发起了提问。问题1:我们都是从理性方面讲,要实现真正的强人工智能。而情感方面,学习人的情感是有必要的。怎样实现情感?之前符号主义都是认知和感知,情感方面肯定是不一样的。孙富春教授:其实这包括两方面内容,一是情感表达,二是通过交互过程了解它的情感,机器人中有一个新的分支叫做人文机器人,可能目前在国外发展得很快,比如日本。将来很多机器人不一定是实物的,比如人文的就够了。通过全息技术做出来的机器人,表情也可以做的非常好,比如电视台播音主持人,如何通过面部表情观测,比如眼动来判别它的情感表达。国内也有3-5种,但这方面与国外还是有点差距的。提问2:想请问杨植麟先生,未来model和XLNet能在哪两个方面开展一些工作?杨植麟:这是一个非常重要的问题,我认为机器学习指的是大模型的问题,解决需要大数据。这些机器学习本质上还是围绕大数据、大模型展开,现在问题是在模型这块,它的根本矛盾是模型大小和效率之间的矛盾,我认为现在这是一个没有解决的问题。很多情况要求有实时的推理,搞一个几十亿参数模型可能没有办法解决这个问题。从大数据的角度来看,它的根本矛盾可能是数据数量和质量之间的矛盾。比如现在用无标注数据,质量不是特别高,像对话发帖子数据质量非常低,而且它没有标注,我认为第二个根本矛盾,其实有数据质量和数量之间的矛盾。如何在这两个之间取得一个平衡,现在也是一个没有解答的问题。在XLNet里面加入了很多无标注数据,但是我们发现再加,提升已经非常小了,这个时候可能需要更多高质量数据解决这个问题,围绕我刚才说的这两个矛盾还是有很多东西可以展开。提问3:我想问一下张老师,AI发展趋势可能是什么样的呢?张鹏:我认为认知智能是一个很好的方向,我们对认知智能产生的原因并不是完全透彻地了解。沿着这条路走下去,会逐渐探索到相应的真相。以上内容根据现场实况进行整理报道。想要获取更多与本次论坛相关的资讯,请持续关注学术君的后续报道。