技术雪球里的小度,向内寻找答案
智能音箱市场上,风起云涌的变化还在继续。
根据Canalys、Strategy Analytics、IDC三家机构提供的市场数据,2019年Q1小度系列智能音箱出货量跃居中国第一、全球第三。
在2017-2018惨烈的千箱大战的一地鸡毛之后,智能音箱市场从2018年底基本宣告进入三足鼎立时代,百度小度、阿里天猫精灵、小米的小爱成为市面上收割绝大部分市场的三巨头。
很多媒体与评论者都认定,今天这个阶段,智能音箱已经陷入胶着的同质化竞争,巨头的主要任务就是提高补贴和性价比、多找流量明星代言、多与家电和车企联动。甚至认为如今智能音箱已经越来越难完成硬件创新,市场和营销变成了唯一的突破口。
然而事实果真如此吗?智能音箱是否真的已经抵达了红海的末尾,只能靠外部玩法续命?
2019百度AI开发者大会(Baidu Create 2019)上,百度副总裁、百度智能生活事业群组(SLG)总经理景鲲正式发布小度助手(DuerOS)5.0。在这次升级中,我们至少可以从技术逻辑上来认识这样一个智能音箱市场的产业现状:关于智能音箱未来在哪里,答案可以有很多选择。
向音箱内部,向技术体验,向AI的宏观曲线,还有众多变数笼罩在音箱市场背后。而技术升级能力在这一新兴市场中的杠杆作用,可能远比外界认识的更加重要。
AI交互,从未标记为“已解决”
近两年,我们开始习惯手机与音箱中的AI语音交互。然而,人类开始研究对话式AI的历史,可以追溯到上世纪50年代贝尔实验室的Audry系统。当时研究者们判断对话AI具有三大难题:单词识别、句子的理解、从语言分析对话方意图的能力。
历经了50年曲折的AI技术发展,最终人类搞定了词义识别这件事。但如果说今天的智能音箱,已经缺乏硬件创新可能,人机对话能力将停留于此,那毫无疑问是过分自大的。
客观来看,今天的智能音箱产品,在交互的自然、流畅与可持续能力上,依旧具有极大的阻碍,每一台设备的语音交互都不足以称为完整形态。主要来看,有三大问题萦绕在智能音箱左右:
1、唤醒效率问题。是否能适应远场与复杂声源环境的唤醒。这是一个软硬一体化问题,需要算法创新与芯片侧的联合创新。
2、语义理解的深度问题。这个问题决定了对话是否能被理解,方言、个性化的语言习惯、中英夹叙、复杂长句的理解等领域构成了这一问题的主要挑战。
3、机器记忆体验的问题。这个问题决定了对话是否能够持续,主要挑战包括机器能否有效记忆、筛选文本和跨时间保留对话。
三大基础标准之外,多种AI技术的交互融合则构成了未来智能音箱的技术体验。包括语音与视觉的结合,例如结合唇语的视觉识别来提升语音交互准确度一;以及语音与知识的结合,比如机器能否理解用户表达的专用词汇、形容式表达以及暗示。
这些问题的广泛存在,让智能音箱不能停留在今天。客观来说,不管媒体和评论者是否认为今天的智能音箱普遍缺乏创新能力,小度助手,一直没有停下解决最核心技术问题的努力。
去年7月,小度助手发布了3.0版本。其核心技术特点是在自然交互能力上进行了升级,强调自然语言处理能力支持下的深度语义分析,并且输出为极客模式、儿童模式等差异化体验。
事实上,小度助手3.0就可以看作对上述第二个问题进行的集中攻坚,以自然语言处理技术,结合多模态技术解决语义理解体验深度。
而在刚刚发布的小度助手5.0中,对于前两个问题都给出了新的答案。在听清方面,小度助手如约引入了百度首创的流式截断的多层注意力模型(SMLTA)。这个在AI圈中被称为暴力到不讲道理的模型,将极大程度增强小度助手的唤醒能力。搭配刚刚发布的语音芯片鸿鹄,未来唤醒之路上的小度助手还有很多底牌。
在听懂方面,结合百度NLP的知识增强语义表示模型ERNIE,小度助手的核心理解算法全面升级为超大数据预训练深度模型,并且通过融合百度全网搜索能力与大规模精准用户画像,小度助手可以学习用户画像,不断升级语义理解的个性化能力。
而面对问题3,小度助手放出了刷屏级别的新技术——全双工免唤醒能力。这让小度助手5.0在可以理解更复杂语义的基础上,能够知道自己应该何时被唤醒,何时保持沉默继续等待命令。这一技术突破,指向人类之间对话时的“拒绝反应”,是因为人类能够记住上下文,不需要每一句都进行回复,才可以用沉默构成交互的一部分。这个能力,指向着上述第三个问题:机器记忆。
至此,智能音箱的排头兵,已经不必拘泥于“一问一答”的机械模式,而是走入类似真人对话的连续交互。
梳理一下不难发现,小度助手不仅没有丧失向内寻求技术突破的能力,而且还是在以年为单位,连续性系统性地直面语音交互的根本问题。而且小度助手的技术进化,是呈现出与百度AI技术发展同频特征的,都表现为通过多AI基础技术融合,更高效算法模型的使用,以及平台化、模块化的技术特性。
让我们先把小度助手5.0带来的结论——“AI向内创新,并非没有可能”这句话放在这里。带着它,我们可以重新审视一下今天三国鼎立的智能音箱市场。
同样的中局,不同的终局
曾经很多人认为,千箱大战无非是千篇一律的战争,这东西非常简单,谁都能做。结果很快缺乏技术和产品创新力的音箱品牌就大面积死亡。这时我们发现,原来音箱之间还是有很大不同的。
到了今天,我们又认为市面上剩下的三家主要音箱本质是相同的,市场主旋律是胶着的补贴战和流量战。这种认识,似乎又回到了当年的老路上。
如果说当年的音箱是遍地石子,今天的音箱就是三大雪球滚动向前。我们需要注意的是,剥开这三个雪球,会发现它们的核心完全不同。
小米的小爱,包裹着IoT产品的连接;天猫精灵包括着电商和阿里生态;而百度的核心是AI技术,是对话式AI解决方案的持续进化能力。
不同的核心,确立了不同的发展模式和市场行为。百度没有阿里的电商狂欢,阿里没有小米铺天盖地的IoT生态,而小米的音箱也不太可能具备小度的拒绝反应和机器记忆能力。
虽然在音箱普及阶段的推广和促销是各家都不可避免的,但是细致拆分下来每家的重点其实从来不曾重合。比如说,回看一下最近的新闻,我们会发现天猫精灵在主推方糖R型号,用明星定制化的特点来主推粉丝电商。而小爱在连接更多的IoT设备,最新上线的是按摩椅。小度助手则在上线新硬件的同时,解决AI交互中的机器记忆问题。
与众多媒体认为的音箱红海正相反。真正的音箱三巨头之争,是营销好做、明星好请,但内在的技术与产品价值核心却不好替换。
如果说三家音箱是三个雪球,天猫精灵可以被称作“新零售雪球”,小爱叫做“米家雪球”,而小度则更适合“AI技术雪球”这个称呼。
从头到尾,智能音箱的中局就是一场差异化竞争。虽然目前在市场份额上似乎来到了驱动的临界点,但接下来的走向,更可能是“你打你的,我打我的”,甚至各自把智能音箱打成截然不同的东西。
不同的内核,定会裹挟不同的外层,通往不同的方向。
技术雪球里的小度,要向何处去?
事实上,内核差异已经影响到了音箱市场的产品表现与市场竞争格局。比如说小度出货量偏向长线持续增长,原因之一在于小度系列的技术体验更突出,容易引发口碑传播。
我们可以以技术雪球里的小度助手为例,看看它的内核会将智能音箱的未来带到何处。
小度的技术差异化,体现在产品中可以归纳为三方面:底层技术能持续进化、技术与技能开放平台、软硬一体化能力。这三个能力,正在将多方面的市场与生态差异化纳入小度雪球的范围:
1、底层技术升级,连接的是用户体验的差异化。小度系列为什么不同,可以轻松用几句对话感觉到。这让小度更适合口碑传播和体验式传播,造成了小度的一系列品牌建设顺利展开,市场销量持续快进。
2、基于技术模块化打造的技术与技能平台,连接的是内容和开发者、IoT设备。三者可以更低门槛接入小度生态,完整利用小度的技术优势转化为自身优势。比如,小度助手5.0带来了更好的技能开发体验。面向开发者的全双工免唤醒能力使得人机交互更加自然,用户的交互成本降低一半;DPL(DuerOS Presentation Language)则让开发者可以自定义技能的视觉展现。在开发门槛不断降低、开发体验和想象力不断飙升的情况下,最终可以看到小度用户的沉浸时间更长,连接设备更广泛,并且消费者应用第三方技能的时间不断增加。平台的技术便捷与高可用,构成了小度吸引开发者的核心价值。
3、软硬一体化的技术架构,连接着硬件能力与核心算法模型的排列组合能力。新的硬件形态、新的硬件能力,比如带屏、投影等,可以更快接入核心算法层。在本届百度AI开发者大会上,小度系列又推出了小度智能音箱大金刚、小度智能音箱Play、小度在家1C 4G版,这些新产品满足了不同人群和场景的需要,同时都具备投屏功能,可以一句话连接电视,一句话点播视频,无缝连接小米、海信、创维、TCL等主流智能电视品牌。小度助手能够源源不断推出新品、新硬件能力的原因,是底层技术架构的模块化与平台化。
可以看到,小度能够在不同领域后来居上,根本跳板是对话式AI底层技术与平台化的领先性与持续进化能力。这种能力的延展性很广阔,甚至现在已经有人说在小度的技术能力下,智能音箱已经完全不像是我们印象中的那种产品,达成了音箱不只是音箱的开始。
目前来看,小度代表的技术进化通道在产业内不具备可复制性。而与其他竞品所代表的能力相比,到底哪种雪球会来滚动到最远,可能还是要交给时间来审视。
但有个逻辑或许可以在今天进行类比:音箱到底是什么,能走到哪里;是一两年的玩物,还是三五年的风口,抑或如同冰箱电视一样永远放在生活中的不可替代品?
想回答这个问题,我们可以想想当年的电视。如果电视永远停留在12寸黑白的时代,那么没有几年它就将遭到腻烦,沉睡于垃圾箱和博物馆。今天我们依旧在孜孜以求地购买合适的电视产品,原因在于电视的技术在进化,电视生态在发展。
技术进化是一切的开始,电视产品的技术进步,才能带动电视网络、电视内容、周边产业(比如游戏机、音响)的滚动进步。
智能音箱正处在同样的阶段。向内寻找答案,以技术撬动进步或许是接下来很多故事不能或缺的前提条件。
电视可以永远12寸黑白,也可以是8k高清的家庭娱乐平台。智能音箱可能不是音箱,只是会一问一答交互,套用模板触发语音指令的“人工智障玩具”;音箱也可能不是音箱,而是能滔滔不绝聊下去,背靠海量技能与IoT设备的家庭智慧中枢。
技术进化,是前后二者唯一的差别。