House还是Home,这是智能音箱的一个问题
2017年,中国智能音箱市场的“百箱大战”硝烟四起,大大小小的厂家一时间纷纷涌入。硝烟散去,蹭热点的最终被热点抛弃,真正沉下心来做技术的仍在砥砺前行。
去年7月,搭载了AliGenie1.0的天猫精灵一经推出,就为人机交互带来了更具差异化的体验。在短短的八个多月中,其销量超过200万台。与此相较,目前行业最畅销的亚马逊智能音箱完成这个任务则花了一年多的时间。
市场的需求倒逼着产品的推陈出新。3月22日,在“万物有灵——阿里巴巴人工智能实验室2018春季发布会”上,阿里推出了具有视觉认知能力的人际交流系统AliGenie2.0和搭载了AliGenie2.0系统的 “天猫精灵火眼”等产品。
慧眼独具,AliGenie2.0
让人机交互告别盲目时代
作为阿里巴巴推出的第一代中文人机交流系统,AliGenie1.0主要是通过“听”和“说”来进行人机的交互;AliGenie2.0则在“听”和“说”的基础上引入了视觉能力,能够进行视觉认知、多模态交互、情景感知等,从而构建一个更聪明的人机交流系统。
其中,AliGenie2.0的视觉认知能力包括达到了国际领先水平的图像识别、人脸识别、物体检测,多模态交互能力可以通过对语音、图像、触摸等多种交互形态的融合,模拟人与人之间的交流方式。而情景感知能力,则可基于上下文、对话场景自主学习,深刻理解情景需求。
这一升级将重新定义机器和人的交互方式,让机器和人的交流更像是人与人之间的交流。人与人之间的交流,尤其是面对面的交流,综合了语音、图像、触觉等多种方式,是一种多模态融合的交互。基于这些自然能力的交互,是人机交互未来的趋势和方向。
因此,打通了视觉和语音,天猫精灵就能更全面、更智能地感知外面的世界,进而更好地理解用户的需求和付诸行动,人机交互也就告别了盲目的时代。
火眼炯炯,机器也有人性的温度和情感
毫无疑问,AliGenie2.0所具备的视觉能力将在天猫精灵X1上首先落地。然而现实的问题是,X1本身并没有可进行视觉处理的硬件。
基于此,阿里专门为天猫精灵手机APP搭载了“精灵火眼”功能。通过一个类似于Google Cardboard的硬件小配件XHolder,便能够把视觉和语音两个模态打通,在几乎没有增加硬件设备成本的情况下就可实现对“精灵火眼”和天猫精灵的组合,使其具备视觉识别能力。
“精灵火眼”的命名意味着,天猫精灵从此将有一双炯炯的火眼,能看见、能感知外部的世界。“精灵火眼”拥有两大核心能力,即“视觉认知”和“表情系统”。
通过图像识别,结合智能语音互动、声音朗读,天猫精灵可以帮助儿童读书、识字。为此,阿里联合了中国少年儿童出版社、安徽少儿出版社等国内顶尖的出版社,精选了3岁到8岁儿童的117套图书来供其使用。而针对老年人视力不佳的问题,“精灵火眼”则针对性开发了识别药盒的功能。其与阿里健康合作,能够识别4万种药盒,覆盖中国家庭常用药。只要用“精灵火眼”扫一扫药盒,就能用语音播报药名、功效、过期日等信息。
在未来,“精灵火眼”还将引入万物识别、人脸识别等功能,其覆盖的物体范围更广,也将拥有更加广阔应用前景。
表情系统则更注重用拟人化的方式表达情感,体现出天猫精灵的娱乐性。用户在互动时得到的表情反馈,承载着阿里对人机交互的理解——人机交互不仅包含语言交互、视觉交互,还有情感的交互。
在整个人工智能行业崛起的过程当中,阿里的行动总是快人一步,无论是硬件、系统,还是系统的升级。当行业里大部分人还在说音响的时候,其又已经引入了视觉能力,无疑将是行业里面的一股清流。
对阿里来讲,其对人工智能的理解并非是简单的工具。屏幕不仅仅是展示信息的工具,人工智能助手也不是遥控器。用户需要的不仅仅是一个house,更应该是home。而阿里的产品在技术层面的创新,就是同生活的点点滴滴进行结合——如改变一个药盒的浏览方式,来为用户打造一个充满温度的home。