五年前,是什么让李彦宏相信了AI?
大部分人的思考习惯,是看到一个东西成功了,就感叹成功者的运气。却很少人愿意去回溯,到底一件事从想法到现实,经历了怎么样的思考和判断,以及自我完善的过程。
把时间倒回过去来思考,其实是件很有意思的事情。比如今天我们已经知道押注AI,可以说是百度做的最正确选择之一。如今AI已经和百度融为一体,甚至成为中国科技界的一张名片,这都应该没有什么人反对。
而与广大科技企业近两年突然转型AI不同,李彦宏和百度早早就选择了相信AI,甚至很早就判断清楚了AI即将在哪些具体领域爆发。
比如2013年的时候,李彦宏表示“语音技术会根本性地改变人们使用互联网和手机的方式”;同年,他还认为“人机对话的问题,最近几年会很快进入实用阶段。”在2014年,他又提出“5年后语音搜索会超文字搜索”,随后2015年百度推出了度秘。
显而易见,今天来看这些判断都实现了。但在五年前,似乎还没有多少人关注智能语音交互。这里我们可以做个有意思的游戏:回到五年前李彦宏的视角,看看有哪些因素让他选择相信AI。尤其是相信AI能够带来商业价值,并判断AI将以何种形态带来商业价值。
不难看出,当时的李彦宏,至少可以发现智能语音正在改变三件事。
一、效率
2013-2015,是中文语音识别率快速攀升的三年。这一段时间里AI的中文语音识别成功率,成功超过了人类语言交互效率。另一方面,NLP和语义理解技术开始因深度学习而成熟,AI能够“听懂”人类,出现了可能性。
这样的技术指数,虽然对于普通人来说在当时并不意味着什么,但就产业发展趋势而言,意味着三件事必然在未来发生:
1、键盘可以被取代。打字输入固然也很方便,但其存在的核心价值在于效率。在语音识别率大幅攀升,可以弹性识别人类语言的情况下,键盘输入的必要性也将受到挑战。尤其在手机端,语音输入优势空前。
2、按钮将逐渐被取代。生活、生产中有无数的按钮,这些按钮存在的价值是因为人需要操纵某个机器,比如说电视遥控器。但在语音识别与语句理解能力攀升后,按钮的地位可以被动摇。当然从而产生的经济价值也是难以估量的。
3、冗务被替代。今天社会中的很多工作,无非就是听、记录和反馈。尤其其中相当大一部分是效率低下的冗务,在AI识别说话的准确度达标后,大量类似工作将被取代,人类获取服务的效率将大幅提升。
这些互联网生活中的基础效率改变,意味着巨大的市场调节和生产力升级。智能语音交互作为这一切的基础,其根基来自于技术升级。这对于技术立身的百度来说是比其他风口更好的机会。去年李彦宏谈论AI时提出AI时代更适合百度这样的技术公司,他认为“仅仅两年的时间,大家就知道了深度学习,算法在迅速地发生变化。外界既然都认识到了AI的重要性,那么对于百度来说,成功的机会自然变大”。
AI的技术积累来自百度更早的投入,而在此之前,则是企业家对于“技术到底能换取什么价值”这件事的预判,这或许也是DuerOS最初的思考逻辑。
二、“搜索-答案”的关系
百度的核心业务是搜索,那么在上述逻辑中,智能语音带来输入效率提升和长句理解能力后,搜索业务势必面临巨大的迭代。这或许带给思考“搜索的未来”的李彦宏,另一种可能的发展方向。加上一门叫做知识图谱的AI技术,已经开始广泛投入应用,搜索的变革也就自然而然孕育在了AI之中。
智能语音的进场,最直接的改变是用户从习惯于搜索关键词,开始向习惯于输入大容量语句,也就是向搜索引擎进行提问过渡。那么随之而来的,也就是用户期待的不仅是带有关键词的搜索结果和百科,还有对问题的解答,甚至对问题的再提问。
所谓搜索,核心价值是连接了人与信息,但信息不仅是关键词,更多时候信息隐藏在问题背后。这样的搜索习惯必须以用户能够提出复杂问题为开始,而智能语音正好带给用户以培养提问习惯的机会。
此外,用语言对事物进行描述,更符合人类习惯。进行抽象的、非关键词的搜索服务,也难以离开语音交互的支持。
而从问答式搜索去到更远一点的地方,很多时候我们需要的甚至不仅是答案,而是建议,甚至是反问和辩论。这样的搜索效果有可能实现吗?假如可以的话,核心当然需要更智能的系统。但高度纯熟的自然语言理解与自然语言处理,带来人机对话的完整性,当然是另一项基础工程。
按照搜索的进化来思考,我们很容易发现搜索业务是离不开语音交互的。那么智能语音为什么对百度如此重要,当然也就不难理解了。用李彦宏自己的说法,在移动互联网普及之后,“要么think AI,要么 say goodbye”。
三、人机关系
更大的机会,在于人机关系正在因为“人机对话”模式的到来而改变,这也是李彦宏早在几年前就做出的判断。AI可以让人类与系统交谈,系统的理解可以转化为命令,命令是机器执行的根源——那么人机交互必须以手触发的现状,也就很可能成为历史。
我们很难低估以语音操控机器的潜力。在最普通的家居环境中,有个说法是你不换智能家居的时候不会多想它,可一旦换了就再也回不了头。这是因为操作的简便性和准确度来说,语言远远超过一个个开关。尤其是能够在空间中行使命令,这是天然更符合人性的人机交互方式。
家居之外,人机交互的价值迭代还发生在近乎每一个生活中的核心场景:工厂中很多工作可以由工人指挥机器完成,带来巨大的效率提升;办公场景里语音交互可以升级为助手,取代海量的协同工作;驾驶场景中,如果能说话控制方向盘以外的一切,那么对使用体验是巨大的解放,更遑论无人驾驶场景里,人机交互只能靠语音来完成。
在语音识别和理解能力成熟后,这些市场自然会显现出价值。这对当时的百度来说是一个巨大的机会。于是我们看到了百度并没有慌忙抢占音箱风口,而是搭建底层平台,逐步完善对人机交互种类的覆盖。这是因为在百度的优势中,设备不是核心,技术带来的人机关系改变才是。
结论
退回到五年前,我们站在李彦宏的视角中可以发现有三个准确出现的现象:智能语音技术正在成熟、智能语音对于百度的核心业务影响巨大、语音交互背后隐藏着巨大的新市场。这三件事支撑百度准确找到了AI时代的核心方向。今天DuerOS连接的设备已经过亿,智能语音也成为了核心基础技术。
但或许我们应该问的是:智能语音已经来到顶峰了吗?退回去看百度与李彦宏当年的判断,或许答案应该是:还没有。
无论是搜索、信息流、内容,还是人机协作与泛社会应用,智能语音在今天只是打开了市场,搭建了更牢靠的基础。语言的魔力与红利,都还没有完整来到商业世界。百度的对话式AI之战,可能也还要跨过更远的山梁。
同时我们也可以发现,计算机视觉在这两年也正在爆发。而李彦宏恰好在2016年曾预言过,计算机视觉将是无人驾驶的最后一公里。因此我们也可以判断,在Apollo平台的搭建中,计算机视觉将成为其中的重要部分。而种种迹象表明,这一预测或许不再需要另一个5年,正在快速向我们驶来。
退回原点,往往可以看到更多。在我们今天猜测AI未来的时候,这个方法或许格外有用。今天,又有哪些技术原点,可以帮我们透视未来呢?