语音不只是消灭键盘,而是要改变人机交互之道
3月22日,在语音搜索媒体开放日活动上,百度宣布2015年其语音搜索需求总数增长了3倍,粘性用户则有60%的需求通过语音表达。语音搜索正在从极客用户的小众玩法,升级为大众用户的通用工具。百度副总裁王海峰在活动提到智能语音搜索的未来,能听会说,未来将要消灭键盘。语音未来会取代键盘吗?或许会。但我认为,语音的价值将远远超过键盘,它将是人和机器最核心的交互方式。
语音搜索取代键盘只是时间问题
百度认为语音会取代键盘,更多是从搜索角度来谈。
键盘在搜索中的价值主要是输入文字,在移动时代,使用智能手机进行文字输入,效率远远不能与PC媲美,尤其是在移动、户外等场景下。除了输入文字不方便之外,Apple Watch等可穿戴设备、智能家居、智能电视、VR眼镜,它们的输入能力比手机更弱。语音技术让移动互联网和IoT(万物互联)时代各种设备的“文字录入”这一痛点迎刃而解。
任何新兴技术发展都要经历从不成熟到成熟 过程。语音搜索技术曾经面临着许多难题,噪音干扰、用户口音、中英混杂、移动网速,这些都是曾经存在的难点。不过,近年来随着语音技术的发展,尤其是以深度学习、自然语言处理为核心的人工智能技术被应用在语音技术中,各种问题都在成为过去式。百度语音搜索、Siri、Cortana等产品这几年都取得了“从量变到质变”的进步。百度在2015年公布了一项研究成果:借助于深度学习技术,百度语音识别能力达到世界领先水平。
语音搜索不只是解决“识别”问题,它并不是将用户语音识别成文字再进行文字搜索这么简单。搜索引擎尝试通过多轮对话理解语义,理解用户在说出这段话背后的需求,比如用户可以对着手机百度问“孙莉的电视剧”,搜索出更加热门的“孙俪的电视剧”后再补充一句“茉莉的莉”,这样搜索引擎就会给出孙莉而不是孙俪的作品结果。它还可以纠错、识别中英文混杂、甚至于用户对话来获取更准确的信息,如果用户看文字不方便,搜索引擎还能通过声音来传递最优选的那个搜索结果。借助于语音搜索,搜索引擎更像是能听会说的助理。
因此至少在搜索层面,语音取代键盘并不存在问题。鉴于键盘还承担了一部分“书写”功能,一些场合人类更需要“写”而不是“说”,所以键盘还会有存在的价值,比如写文章、做表格,所以键盘短期内不会消失。
为什么人们期望键盘消失?
键盘是一个伟大的发明,它改变了人们产生文字的方式,变写字为打字,更重要的是,它是人类与机器交互的核心方式:PC时代是物理键盘,移动时代是虚拟键盘。
不过,键盘生来就是不自然的设计,全键盘、九宫格布局都需要人类去学习适应,输入的熟练程度差距很大,不会拼音的人可能现在还依赖手写输入。语音相对于键盘来说,是人类自然获取的能力,小孩子不用学拼音就可以通过语音进行搜索、输入、沟通。更加自然,意味着门槛更低,对于所有人来说,使用更简单、更舒服、更直接。
除了自然之外,语音效率更高。为什么会有速记这个行业?因为绝大多数人打字都无法跟上说话的速度——中文还不算语速最快的,还有语速更快的语言。百度的数据统计表明,打字平均要1s/字,而语音只要100ms/字,是前者十分之一。因此人们在很多场合更愿意口述而不是书写,比如搜索时,再比如洽谈时,很多人更愿意用电话而不是微信。换个角度来看,语音未来还有望被用在同声传译、演讲速记等领域。
语音相对于文字来说还有一个优势,是传递更生动的信息。从声音中我们可以听到“笑纹”,可以感受对方的情绪,汉语里同样的文字经过不同的语调之后就是完全不同的意思。可以想象,未来语音搜索可以通过分析用户的语音语调,能更好地理解用户的情绪。反过来借助于语音合成技术,用户可以接受机器的语音播报,或者语音结合图文,获取信息更加丰富立体。
语言是人类与生俱来的天赋之能。PC时代我们更多使用文字,而移动时代,随着语音技术的发展,我们将更少使用键盘(实体和虚拟),更多地使用语音与机器自然交互。
语音价值为什么远远大于键盘?
语音在理论上完全可以取代键盘的“输入”功能,不过,它在未来的价值将远远大于键盘。
一方面,语音让我们和机器之间可以有更远的物理距离。
声音的传播距离远远大于我们手指的长度。现在不论是手机还是电脑,只要用键盘打字,都必须在设备旁边。语音命令,尤其是近场识别技术和休眠唤醒技术,让我们可以跟房间另一个角落的机器交互,只要它听得到。一个最简单的例子是电视:我们距离电视屏幕很远,怎么去操作它?现在还需要遥控器,未来就可以用声音命令换台了。
另一方面,语音/语言,是人和机器最核心的交互方式。
我们不只是通过语音去搜索引擎查天气问问题,还可以直接下单订咖啡。
未来,智能机器人将会成为家庭的标配,人类如何去控制这些机器人?最可能的方式,至少在各种科幻电影中最常见的想象,均是语音交互,毕竟未来的机器人不会有屏幕和键盘。未来的场景可能是这样的:你让机器人给你制定一张表格,你口述机器人帮你完成文章,这中间根本没用键盘什么事情。
机器要能充分理解人类的命令,必须要具备语音和语义识别能力,并且还能不断学习变得越来越“听得懂人话”,这正是百度等科技巨头在探索的事情。
短期来看,语音最大的价值是让人更便捷、自然地与机器交互,尤其是输入、搜索。眼下在服务获取、命令执行上还不够成熟。不过现在百度们在智能语音搜索上的探索,无疑是在给语音未来成为人机交互的核心手段打下坚实基础。