重阳节推关爱阿尔兹海默症患者项目,搜狗这轮操作要颠覆语音市场格局
除去项目中体现出的人文关怀和公益精神以外,我们关注更多的是搜狗在小程序和短片展示的语音合成技术高度和结合语音识别的应用创新性,在当今语音市场群雄争霸的格局下,搜狗可谓别树一帜地亮了次肌肉,吸引了行业的关注。
被埋藏的宝藏:
当语音合成成为整个市场的短板
如果说语音合成是一项不被重视的技术,显然是不够客观的。如今BAT科技巨头、AI独角兽等纷纷入局,语音市场一片热闹,很难说有哪一项细节技术是没有人关注的。
但从当前几家典型AI技术企业的在语音方面的布局来看,的确很少有哪一家展示出了在语音合成方面较为深入的能力。
以百度为例,百度的DuerOS更加注重的是技术生态的打造。通过连接硬件,打通百度语音技术下达到现实应用场景的通路。因此,显然DuerOS更注重语音技术API接口的耦合与整合,包括百度对于AI技术的整体化关注,DuerOS技术体系中也融合了一部分结合了视觉等等方面的多模态识别。
另一种典型是科大讯飞等专注于单项语音技术研究的技术型企业。因此对于主攻B端市场的AI技术企业来说,语音合成技术的打造更倾向于“一招鲜吃遍天”,比如大家很熟悉的林志玲语音,就是邀请林志玲前来录制了四千多个字,才能搭建成今天声音和语气都高度相似的林志玲语音合成。但这种高成本高投入的技术,显然只能适用于B端市场,不具有普遍性。
裂隙是光透进来的地方:
搜狗将如何利用技术撬动
语音市场格局?
而搜狗在宣传片中展示出了自己在业内推出的个性化生成语音和情感迁移两项技术。
通过利用声音数据训练神经网络,从声音样本中抓取音色、音调这样的关键特征,再把音节数据还原成声音,就可以在短时间内复制一个人的语气和声调。像很多地图产品推出的明星版语音包,其实是找了明星录入上千个字的读音加上几十句短语,拼接起来才能实现。但搜狗的个性化生成技术,只需要用户上传少量音频,即可合成高质量的个性化音色。
而情感迁移技术则是将相声贯口、唱歌、绕口令等等不同的说话风格抽象化,将语速、停顿方式、语调等特征构成神经网络模型,再对文本信息进行处理,进而可以模仿各种发音风格。如同视频中老奶奶的声音一样,老年人说话特有的慢条斯理和和蔼,都是通过情感迁移才能实现,而不能仅仅依靠音色。
首先,市场中呈现出了敏捷开发与敏捷应用之间的空隙。打造平台化生态的技术企业,关注的更多是如何帮助开发者进行敏捷开发,让语音技术能力可以快速进入智能音箱、IOT设备、汽车等等硬件场景。但作为C端用户和消费者,同样需要敏捷的应用语音技术。就像宣传片中体现的,只需几十秒的对话就能完美复制一个人的声音和语气,对于用户来说是一种十分实用的应用方式。例如用户可以用自己的声音替换有声书声音、用家人朋友的声音进行地图导航等等。这种敏捷应用的广阔市场是无法被平台中的开发者所代劳的,也就为搜狗提供了更加贴近用户的途径。
其次,市场中呈现了B端到C端语音商业化的空白。AI独角兽们虽然每一轮融资都数额巨大,但这也证明专项投入于AI技术会造成巨大的变现压力。而企业通常会选择将这种压力释放于B端市场,在同传、语音客服等等业务中收费。至于面对C端用户的服务,又往往是免费的。但搜狗在短片中展示出的个性化语音合成,以及伴随语音识别交互可以实现的陪伴,展现出了一种定制化的C端商业场景。未来用户或许可以通过付费打造一套拥有自己声音的儿童陪伴语音系统,帮助远离家乡的父母陪伴孩子,或是学校可以为教师合成一套语音家教系统,让学生熟悉的声音在课后仍然可以为他们解答问题。搜狗用强大的语音识别能力,结合起个性化生成语音和情感迁移两项独特的差异化技术,让搜狗可以触及到他人难以抵达的语音商业市场。
通往未知的任意门:
语音市场的下一章如何书写?
在今年7月的“Blizzard Challenge 2018 ”语音合成大赛上,第一次参赛的搜狗战胜了大量国际顶尖科研机构,获得了可懂度和语音停顿两项任务中排名第一的优异成绩。在这样权威性极强的国际赛事中获得这样的成绩,也进一步证明了搜狗在语音合成上的能力。不仅是语音合成,搜狗在机器翻译上的高度投入,同样也涉及语音识别,像搜狗旅行翻译宝这类产品的热销和高度启用率,也给搜狗累积了大量的语音交互书。在WMT2017国际机器翻译大赛上,搜狗在语音识别上的准确率达到了惊人的97%。
如今搜狗展示出的不光是语音交互和语音合成的技术能力,更多的则是体现出搜狗进一步深入语音市场时,独有的技术优势和商业化前景。C端个性化语音合成与交互,可以说是当今语音市场的无人之地。搜狗所拥有的优势是技术上不可替代性,帮助搜狗从一种竞品中脱颖而出,有如高塔一般,展示出更多差异化优势也能辐射更多发展可能。
现如今的语音市场,已经基本完成了最初的市场培养,越来越多的企业开始应用起智能客服,越来越多的用户开始习惯和手机、音箱对话。正是在这样市场格局之下,才是比拼差异化、比拼细节的关键时刻。用户刚刚学会了接纳,接下来即将学会分辨优劣并进行选择。搜狗这时发挥出了多年的技术累积,打出了场景应用创新与差异化大旗。搜狗此举是否会刺激市场更多的向打造差异化优势发展?或者破坏当下微妙的平衡,吸引来大量用户?通往未知的任意门已经打开,一切可能都在酝酿之中,搜狗与语音市场的故事,值得期待。