谈到人工智能,为何王海峰这次要聊知识图谱?
说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,不过,在AIWorld 2017世界人工智能大会上,百度副总裁、AI技术平台体系(AIG)总负责人王海峰却没有讲这些,这次他聊的是知识图谱。
虽然你可能说不出知识图谱的具体定义,但其实每天都在使用它。当你在百度搜索时,搜索结果右侧的联想,就来自于知识图谱技术的应用;你问百度某个字怎么念,答案也来自知识图谱的应用;你和度秘聊天,问他詹姆斯和科比谁厉害、都取得了哪些成就等等,背后都是知识图谱在发挥作用……王海峰在演讲中甚至表示,百度搜索、地图、金融……越来越多的应用,都越来越依赖知识图谱。
听完王海峰的演讲,我的第一个反应就是:知识图谱的价值被行业低估了,各行各业都在研发底层技术和寻求AI场景,却忽视了最成熟也很重要的AI技术:知识图谱。
知识图谱跟人工智能有什么关系?
知识图谱不难理解——就是通过不同知识的关联性形成成一个网状的知识结构,对机器来说就是图谱,形成知识图谱的过程本质是在建立认知,理解世界,理解应用的行业或者说领域,每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱,正是因为有获取和形成知识的能力,人类才可以不断进步。
王海峰认为,知识图谱对于人工智能的重要价值在于,知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如狗的嗅觉。而“认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。”而知识对于人工智能的价值就在于,让机器具备认知能力。
知识对于AI的价值,王海峰的总结是两者结合可以正循环:
“有了知识的人工智能会变得更强大,可以做更多的事情。反过来,因为更强大的人工智能,可以帮我们更好地从客观世界中去挖掘、获取和沉淀知识,这些知识和人工智能系统形成正循环,两者共同进步。”
在此之前,人工智能的基础是什么?行业有不同声音,比如马云说数据就是未来的能源,与云计算和互联网一起构成智能世界的基础;李彦宏说算法很重要,数据秒杀算法;马化腾说AI的四个要素是数据、场景、计算力和人才。总体来说,数据和算法是大家认为比较基础的东西。王海峰从技术层面将将AI核心技术分为感知层与认知层,提出认知层的基础是知识的观点,与行业的看法并不矛盾。因为知识图谱的基础,就是数据和算法,它需要应用自然语言处理和深度学习技术来进行数据挖掘,在海量知识中找出关联性,形成图谱。
为什么王海峰如此重视知识图谱技术?
构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。事实上,现在机器的感知能力已经越来越接近于人类了,语音识别准确率达到97%甚至更高,图像识别某些领域如人脸识别,比人类个体更加准确和迅速。所以,未来人工智能的重点进步方向将是认知层,机器理解这个世界,才能更好地与世界交互,为人类服务。百度是中国最积极和大力布局人工智能的科技巨头,作为百度人工智能技术体系的最高负责人,王海峰重视知识图谱也表明百度未来会强化机器认知能力。
当然,王海峰为什么如此重视知识图谱,还有两层不容忽视的原因。
第一,王海峰本人的研究方向和从业经历决定他是务实派。
王海峰不是从研究学者转型而来的技术管理者,而是学术和工程并举,从实践中成长起来的科学家。王海峰2010年加入百度时,这一轮AI热还没爆发,即便是最早布局AI的百度,成立深度学习实验室也是在2013年。王海峰加入百度后,先后为百度创建了自然语言处理部、互联网数据研发部(包括知识图谱和互联网数据挖掘)、推荐引擎和个性化部、多媒体部(包括语音和图像技术)、图片搜索部、语音技术部等。
不难发现,百度最核心的AI相关技术王海峰都有经手甚至牵头主导,与自动驾驶等技术的不同之处在于,这些技术都是直接影响上亿用户的应用型技术,而且相当一部分与知识图谱有直接或间接关系。2013年上半年,王海峰作为执行负责人协助创建了百度深度学习研究院(IDL),百度正式进入AI行业,他此前几年为百度布局的技术,为百度进入AI领域打下了基础。我想正是这几年让王海峰的技术研发更偏应用性,注重实用价值,今天提出“知识图谱对AI是基石”也许与这个思维方式有关系。
王海峰在学术上也居于大师级地位。在自然语言处理领域,他是世界上影响力最大的国际学术组织ACL(计算语言学协会)最年轻的会士,也是ACL 50多年来唯一的华人主席。百度搜索、翻译、语音、输入法以及知识图谱等等产品,都是基于NLP技术。因为在人工智能上的成就,王海峰在今年5月还获得了国家级科技奖“全国创新争先奖”。
无论是作为百度AIG的负责人,还是学术大师,王海峰看重知识图谱的价值都不奇怪。
第二,百度很早便在知识图谱上进行布局,储备充分。
百度很早就在研发知识图谱技术。2014年开始,百度在搜索中将知识图谱产品规模化应用,3年应用量增加了160倍,百度的知识图谱的知识点已经达到几个亿;在技术层面,百度知识图谱技术已经实现了动态技术,每天有几百个数据流同时工作,支持秒级更新和多层查询。世界是变化的,百度知识图谱对世界的认知也是变化的,动态知识图谱,需要很强的数据、算法和计算基础。
百度知识图谱不只是被应用在搜索系产品中(包含问答、百科等),DuerOS、信息流、甚至以图搜图,都在应用知识图谱。王海峰在演讲中透露,百度知识图谱已经应用到几十个领域。我记得2015年,百度还将知识图谱应用在股票领域,旗下产品股市通通过数据、信息与股票的关系,以及股票与股票之间的关系,在股票领域首创知识图谱,实现智能选股。
可以说,百度在知识图谱上已经在数据、算法、计算和场景上形成了优势,这也是百度被严重低估的一个优势。算法、数据、计算力,每家公司都有,但在知识上百度却是积累最丰富的,不只是狭义的百科、知道、文库等等知识产品,搜索引擎与用户交互的过程本身也是在完善知识体系。所以百度自然要用其擅长的知识图谱,去强化在AI领域的优势,尤其是机器认知能力和应用价值。
知识图谱成为AI应用行业的先决条件
人工智能已受到各行各业的关注,不只是BAT在战略投资人工智能,金融、汽车、零售、娱乐、制造等等行业都在积极拥抱人工智能技术。然而,人工智能要在行业中得到应用的先决条件,首先要对行业建立起认知,只有理解了行业和场景,才能真正智能化。说白了,就是要建立行业知识图谱,才能给行业AI方案。
一个例子是零售行业,如果真要实现个性化的商品推荐,机器必须理解不同商品的特性,以及商品与销售场景(如季节、地区、时段)、与促销行为(打折、送券)、与用户需求之间的关系,才能推荐满足用户需求的产品。这也是一个优秀的推销员或商场导购的思考逻辑。然而,要理解这些要素之间的联系,就必须构建零售行业的知识图谱,且需要不断动态学习来完善认知,才能进行有效的推荐,这就是“零售知识图谱”。当然,针对不同的零售细分领域,比如美妆、3C、食品等,可能又要建立完全不同的知识图谱,就像人类社会的细分一样,在每个行业都建立起特有的知识图谱。
类似逻辑同样适用于客服、金融、制造、娱乐等场景,总而言之,人工智能要在一个行业得到应用的前提,就是要让机器建立起对应行业的认知,形成行业知识图谱。王海峰在演讲中也指出,
“人工智能与传统产业融合的过程中,要想为这个行业提供更好的服务,就需要对这个行业进行定制化,要有行业知识,这时候就需要在通用知识图谱的基础上,有相应的行业知识图谱,进而帮助这个行业提升生产力,帮助这些行业、产业升级。”
王海峰的逻辑,也是未来人工智能走向应用的必经之路:机器通过人工智能技术与用户的互动,从中获取数据、优化算法,更重要的是构建和完善知识图谱,认知和理解世界,进而服务于这个世界,让人类的生活更加美好。