搜狗CEO王小川:搜狗AI,从信息文明到智能文明(附视频) | 甲子光年
编辑:小北 设计:一凡
微信公众号:甲子光年(ID:jazzyear)
在中国,搜狗拥有第一大中文输入法、第二大搜索引擎。在信息时代,搜狗凭借核心产品搜狗输入法和搜狗搜索对中文信息化起到了极大的助推作用。
随着智能时代到来,搜狗致力于以语言为核心的AI。尤其在翻译领域,搜狗屡获全球顶尖赛事冠军,比如在刚刚结束的顶级口语机器翻译评测大赛IWSLT2018中,搜狗击败讯飞、阿里,获得了Baseline Model(基线模型)比赛冠军。此前,搜狗还曾获得国际学术赛事WMT 2017中英和英中双向机器翻译冠军。
在11月4日的甲子引力大会上, 搜狗CEO王小川做了主题为《搜狗AI:从信息文明到智能文明》的演讲,分享了其对信息文明与智能文明的思考。
在这篇演讲中,王小川主要探讨了以下3个问题:
1.技术进步与文明的进化
2.信息文明下的关键应用
3.智能文明下的关键应用
关注甲子光年,在后台聊天窗口回复“王小川”,获得《搜狗AI:从信息文明到智能文明》报告完整演讲视频链接。11月4日甲子引力大会的其他主讲嘉宾稿件和PPT将在本号陆续发布,敬请期待。
搜狗AI:从信息文明到智能文明
主讲人: 搜狗CEO王小川
大家下午好!很开心今天来甲子光年举办的大会演讲。一甲子是60年,一光年是10的13次方公里,时空跨越非常大。今天我愿意退回来以更远的距离来看一下科技变迁给历史发展带来的变化。我分享的主题是《从信息文明到智能文明》。
上两周我正好去英国皇家科学院,在那边听了一场报告,一下把跨度提到从信息文明到智能文明,这个框很大,可以把很多东西装进去。史前文明有了文字,之后相继进入农业文明、工业文明、信息文明。今天再往下又有新的突破——智能文明。智能文明是人还是机器?其实这里有两支,一支是基于对基因技术、免疫学的理解,用机器改造人,这需要对人有透彻的物理学理解。另外一支则是前几年深度学习的突破,人们开始很认真地希望机器具有更高的智能。智能文明里,我认为人机会有很多结合点。
技术进步与文明的进化
今天我的分享从互联网技术入手,机器开始具有更多的技术能力。我查了一下信息文明这个词的含义,在维基百科里有一句最关键的话是:打破地域、距离、意识形态的限制,使人们能接触到各种思想、文化、知识,实现信息的即时性。当我们在提到打破限制时,核心的关键词是文明里面的语言。语言在学科里面是知识和思想的载体,我们刚刚讲的打破这种限制,更多的是以语言为核心的信息的一种交流和流动。语言是人区别于动物的一大特征,小狗小猫可能会叫,但是它不懂得概念。有一句话叫“掌握一种语言就是掌握一种灵魂”,掌握一种语言,你就能体会这种语言几千年时间里所沉淀的内容,所以对人而言语言是很重要的。
对机器学习而言,自然语言处理是AI皇冠上的明珠,在计算机的信息处理里面,语言也是非常关键的一件事情,对人、对机器都是殿堂级的一种技术。人和人之间、人跟互联网之间进行沟通时,会有一些关键的应用。人和人之间最底层的事情一个是输入,一个是即时通讯。
信息文明下的关键应用
90年代时,在学校里学计算机就是学打字,李岚清到学校访问,问我们一个问题:小同学你为什么打字?在他心目中打字就是信息化。汉字输入,包括像激光照排这些都是基本的问题。从邮件走向即时通讯,造就了微信这样的产品。在整个信息化过程中,腾讯、百度、谷歌包括Facebook造就了信息的连接能力,而搜狗则在输入法上有比较大的创造性发明,搜索目前在国内排名第二。很多年前,我们对搜狗的能力进行归纳时讲到:搜狗就是让表达和获取信息更简单,而这种信息是以语言为核心的。
说到信息文明已经结束了,那除了物联网以外,信息文明中还有什么工作没做?打破意识形态限制这件事中,还漏了点什么?其实还有跨语言的问题。我中午吃饭问朋友一个问题,英文是全世界最重要的语言,但你知道以英文为母语的人口在所有语言里面排第几位?答案可能有点出乎意料,排第四。世界上使用人口最多的母语的是中文,大概有16亿人,第二位是西班牙语,第三位印地语,第四个才是英文。这个语言人口跟我想象得不一样,但在互联网的世界中,85%用英文,联合国会议当中95%用英文或者西班牙口音的英文,再有就是商贸活动中,100%用英文。
我们知道中国人口占世界人口的五分之一,这样一个人口大国使用的语言,跟世界文明当中的信息其实还是没有连接上。今天的世界规则是美国打造的,毕竟用的是英语语系。我想说在最后一公里的突破中,翻译是一件非常重要的事。通过翻译,人类文明就像通天塔一样能够到达一个新高度,这是我想强调的在语言方面往下挺重要的一件事情。翻译里面搜狗会做很多工作,现在做几十国的语言翻译,去年到今年在全球翻译的书面语和口语竞赛中,都拿了好几个第一名。搜狗的日翻译请求量很大,我们已经把这种技术用到产品里面,比如输入法里面有自动翻译,用户语音说中文或者输入中文就可以用英文直接发出去。
另外搜索引擎里,我们已经做到很多事情,搜狗全球搜索,可以用中文搜索全球信息,并自动翻译成中文,让用户做透明的阅读。前段时间碰到瑜珈教练,她说我想了解一下其他国家的瑜珈,她的英文不太好,但通过全球搜索,她能对全球的信息有更多了解。另外像同传,前段时间的苹果发布会,新浪、凤凰网、搜狐直播都用了搜狗的技术。中网在中国也是一个大的国际赛事,搜狗是官方支持。
智能文明下的关键应用
最后一公里攻破之后,智能文明是什么呢?信息文明下人跟互联网连接是表达和获取。智能文明是解决了以语言为核心,人跟整个互联网生态连接时的两个关键问题:一个叫感知问题,一个叫认知问题。感知核心是以模式识别为基础的浅层理解,包括语音、图像、手势、体感。能够让机器读到世界上以语音、图像方式呈现的信息,或者机器合成这样的信息给人读到,叫感知智能。感知智能这个词比较学术,翻译成应用层面的话,叫自然交互。什么意思呢?人跟机器之间开始像人和人之间一样交流,以前不是,以前是人去适应机器,随着AI的发展,今天是机器开始适应人。刚才提到了五笔输入法,在座的各位都学会了吗?我是学过,但没学会,太难记了,我很佩服打得熟练的人。但它其实干的是什么事呢?是人适应机器。对机器编码来讲五笔是比较容易实现的,用拼音会涉及到很多重码问题,对机器来说很难。而今天用语音输入是机器向人靠近,用自然方法表达,这是在感知智能里在核心解决的点,让人跟机器做出更好的对话。
iPhone的发明,从键盘到鼠标,很大一块是交互体验的变化,我们会用手指去戳,用自然的方法实现人跟机器的互动。普通人能够跟整个技术文明走到一块去,这叫自然交互。
另外一个在学术上叫认知智能,以深层语义理解、知识推理记忆为核心。这个挺困难的,在知识里面做推理,就像深度学习,最前沿的技术还不能完全做到。最近谷歌有篇文章讲到问答里有很多突破,但对超大计算力的使用非常高。不难理解,听到一个人的语言是容易的事情,但是语言作为符号,它的信息内涵不在于语言本身。说到甲子光年或者华夏文明这些词,它的内涵很丰富,需要行万里路读万卷书,你才能够理解它的内涵,而且每个人的理解不太一样。认知里面,怎么让机器对知识产生理解,能够产生机器推理和决策,这是很难的,是比自然交互更难处理的一件事情,我们把它称为知识计算或者认知计算,包括图灵测试,那是语言上一种终级的形态。
自然交互是以什么形态处理呢?语音识别、语音合成、图像识别、唇语识别,包括我们在乌镇世界互联网大会上发布的一款与新华社合作的产品叫“AI合成主播”,机器能够识别人的语言,人的表情,或者合成人的语言和表情,这里面做了很多细腻的工作。前段时间演讲用过一次,用我的语音去配上一首歌,合成的声音会有情感上的迁移,这是感知智能或者是自然交互里在做的事情。搜狗发布第三季度财报时,大家可以注意到,我们开始让机器取代人去信息播报,这是全球首次使用。
机器跟人有一种新的结合方式,这不是一个简单的语音合成,而是模仿我的声音,这种技术往下会用到同声传译系统,以后我讲中文时,同传出来的英文也是我的声音,包括语音、语调甚至愤怒或兴奋语气的句子,机器都能在里面做迁移和学习。这是把自然交互推到让人舒服的感觉。
“AI合成主播”也是合成,你输入一段文字,这个时候机器不仅合成声音,还能合成主播视频,这是图像跟语言之间连接的一种技术。是我们之前做语言识别的时候,有一天我想干嘛非得用声音做识别,我们是不是可以做到看到嘴唇运动就知道你要说啥,所以搜集了很多数据,把人的嘴唇运动、发音和文字对应起来,再把这样的数据倒过来使用,就变成给了文字之后,能够合成真实的嘴型。
这样的技术很快就会进入到实际使用了,这是让主持人能有分身,因为他们之前走进演播间的时候,一小时可能只能录一小段,往后不需要他们出场,只需要采集数据,输入文字就行了。所以往后行业中可能会有些改变。在自然交互里,我们推动这样的发展,是走出信息文明的过程。这里的核心是听觉、视觉。今天比较大的趋势,就是会有新的智能硬件产生。我们大家可以看到为什么亚马逊做Echo音箱,国内小米、阿里也做音箱,目的就是提供更好的自然交互的场景,去摆脱智能手机。
更新的自然交互技术或者更新的硬件形态的结合,这是我们看到的趋势,而且这些硬件在家庭、汽车、工作环境中都可以使用。亚马逊前两天也发布了他们的车载Echo。
在知识计算里面,翻译是最容易的事情,翻译一堆语言信息对内涵要求比较低,即便这样,翻译也是非常苦的事情。我们的同传支持了大概500场会议,不同的会议需要对单独的行业语言样本去做学习。另外是问答和对话。我们可以看到行业上很重要的技术趋势,比如今年谷歌I/O大会上,一个人取代或者帮助你去打电话,去订酒店服务,大家记得吧,当时女声在跟服务员对话时说了一句“嗯哼”技惊全场。这是在对话系统中,机器成为人的分身在开始使用,这是另一个知识计算技术的使用。
顺着这个思考,在搜狗自己的落地里面,比如讲到输入法的时候,大家讲语音输入法,我们很自豪在整个汉语体系里,我们的语音识别请求一定是最大的,搜狗输入法每天有超过五亿次的语音识别请求,另外还可以做拍照输入。我想共通的地方还是把知识计算的技术用来做智能的对话,谷歌的引擎也在做这样的事情。
去年搜狗上市时,我一天时间就收到了三千条祝福的微信,三千条我用语音去回复,我也会累死。怎么办呢?这个时候需要机器成为你的分身,学习你的个性,帮你去回答,无论是用语音还是文字的方式。实际上,搜狗搜索也不是简单的通过语音搜索让用户去读,而是机器在产生阅读的能力,能够阅读互联网上的上千亿的网页内容。不是输入一个关键词,给你搜寻到相关结果,而是输入一个问题,用自然的方法去问,机器能够给他答案。
哈佛在一战到底中得到冠军的一个人跟机器比赛,2013年还做不到这个事,那时技术不够,今天,机器已经可以完胜最顶尖的人类。今年初还有一个直播答题比赛,好多网站推出来,答对12道题给你100万奖金,吸引了很多网民参加。搜狗推出了直播答题助手,帮网民获得成功。会有人问到我们的汪仔问答机器人跟Watson的对比,Watson出的时间比较早,今天的技术跟当时不一样,今天的技术已经不适用输入文字,而是用语音和图像输入。而且当年的Watson是用在封闭领域,你要在题目上写明,这是在问明星还是问地名。今天可以做到的是,你问了问题之后,机器自动去判断这属于哪个知识领域,并且是从全网信息做判断。这是谷歌、Facebook,包括国内搜索引擎公司都很努力在做的一件事情,机器能做问答,这是很性感的一件事情。
因此搜狗推出搜狗立知,让机器不是关联到十几条结果,而是直接提供答案。行业的趋势是在做对话或者问答,最后在垂直领域当中去使用,拼到一块去使用。
在这个时代里,自然交互是在往新的智能硬件走,而对话和问答,除了在搜索引擎的通用引擎以外,更多开始在垂直领域做相关服务,所以一头用硬件来承载新交互,一头在垂直行业中间去承载知识计算的能力,最终我们会看到一个大的趋势,在未来产生的新智能硬件,很大的方向就是智能助理,国际上叫VPA。这是我们的断言,在新的时代里,人人都可以拥有智能助理。搜狗作为人工智能带路党,正在推动的事情就是让每个人拥有自己的分身,拥有自己的智能助理。
这是我给大家带来的分享,谢谢!
END.