汽车多模态交互研究:交互方式日渐多元化,多模态融合有待进一步加强

佐思汽研发布《2021年中国汽车多模态交互发展研究报告》,对主流汽车品牌交互方式进行了梳理总结。
目前在汽车人机交互方面,呈现两大特点:
1、在交互方式上,除了触控、按键、旋钮等传统交互外,语音、手机已成为汽车人机交互的必选项。除此之外,人脸、手势、车灯也成为交互方式扩展的热门选项,更有部分品牌开始尝试眼部追踪、声纹、指纹等新型交互方式。
2、在品牌布局上,合资品牌在交互方式上相对保守,除语音、手机交互外,新型交互方式搭载较少,但豪华品牌成为多模态交互先锋。例如奔驰在其最新一代MBUX系统上,配备了人脸、手势、眼部、指纹多种新型交互。相比之下,自主头部品牌在新型交互方式的应用上更为积极,如长安汽车的视线唤醒、长城汽车的声纹识别等。

国内外主流汽车品牌部分人机交互方式如下(●量产车搭载 ○概念车搭载):

来源:佐思汽研《2021年中国汽车多模态交互发展研究报告》

语音作为常规交互方式之一,功能正在不断完善

语音交互在原有性能之外,连续对话、音区锁定、音色切换、语音自定义等特性已成为主流品牌的下一发展方向。
1、连续对话、音区锁定已有多个品牌搭载。
具备连续对话的语音交互系统能够在一次唤醒后,一定时间内无需再进行唤醒,提高指令响应的连贯性;音区锁定则可以定位语音指令的发出者,在执行“开窗”、“调节空调温度”等指令时更加精准。搭载这两项功能的品牌主要有吉利、长安、长城、奇瑞、上汽荣威、广汽传祺、小鹏、蔚来、理想等。
吉利星越L--银河OS的“主驾极客模式”支持主驾24小时免唤醒,具备四音区锁定
小鹏汽车--语音助手小P,具备全场景语音功能,支持30秒连续对话、双音区锁定
2、音色切换指语音系统除了默认语音声音外,可提供其他声音供用户选择,如明星、游戏人物的声音等。搭载品牌有吉利、长安、长城、比亚迪、荣威以及新势力品牌蔚来、小鹏、理想等。如,上汽荣威RX5搭载的斑马智行维纳斯系统可提供亲和女声、知性女声、磁性男声、稚嫩童声、热情女声五种音色供选择。
吉利星越L--银河OS支持至多10种音色切换
3、语音自定义包括语音音色自定义和语音功能自定义。
“语音音色自定义”指用户上传自己或家人的声音后,系统将该声音应用于语音响应、导航播报等场景。搭载品牌有吉利、长城、上汽荣威、广汽传祺以及R汽车等。
“语音功能自定义”指用户可自定义语音指令及该指令对应的操作,可极大地提高语音系统的可玩性,满足用户的个性化需求。搭载的品牌有小鹏汽车。
吉利星越L--银河OS 支持用户定制个性语音,自定义的真人声音可以全场景应用,包括导航、应答等。
小鹏汽车--小P私人定制,小鹏汽车的车主可通过手机APP自定义语音指令及对应的操作

手势继语音、人脸之后,成为第三种新型交互方式

手势交互主要通过车内摄像头来判断手势动作,并将数据传递给车载系统控制单元,由控制单元调出与识别出的手势相对应的功能。相较于语音控制,手势控制操作更加精准、快速,且更容易学习掌握。
搭载手势交互的品牌有宝马、奔驰、长安、长城、上汽荣威、广汽传祺、岚图、R汽车、北汽极狐、小鹏。其中长城、小鹏支持车外手势识别。
WEY摩卡--支持在车外通过手势控制车辆点火、前进、后退、暂停、熄火。
长安福特EVOS--全新一代SYNC+2.0支持手势控制静音、音乐播放、界面分屏以及返回主界面等操作。

车灯交互上车奔驰、高合、智己等品牌

车灯交互通过车灯闪烁动作、车灯投影、灯组显示屏等方式向外界传达信息,车灯交互为驾驶员与车外交通参与者的互动提供了渠道,在自动驾驶落地之际,车灯交互使自动驾驶汽车能够与周围环境进行通信。目前奔驰、奥迪、大众、长城、比亚迪、高合、智己、小鹏等品牌搭载了该交互方式。
奔驰--投影大灯将警告标识、标记辅助等与驾驶辅助系统相关的信息投射在前方道路上。
智己L7--投影大灯可投射车语、导航、警示等交互信息,并且可结合高精地图提供车道级的导航引导;灯组显示屏可提供多种图案样式,展示座舱内用户的状态;交互尾灯支持显示文字、表情,如感谢、行人提醒、充电状态等信息。
除了车灯灯组外,部分品牌尝试在车身前后增加显示屏来向行人传递信息,如北汽、三星等。
北汽Lite 300--在车辆前后配有LED显示屏,可显示文字、表情、动画以及充电信息等内容

多模态融合是下一发展方向

单一模态下的交互,对交互体验的提升有上限。未来在提高交互体验上,多模态融合是明显可行且高效的选择。目前在研的品牌有奔驰、宝马、华为、长安等。
1、语音+视线
语音交互对包含“这个、那个”等模糊指代词的识别能力几乎为零,这种情况下若加入视线追踪,由视线锁定的方向,再通过语音发出指令,可极大提高指令的响应率。
奔驰“MBUX Travel Knowledge”--驾驶员可通过视线锁定一栋建筑物,并说:“我想知道这栋楼的用途”,即可获取相关信息。该功能由Cerence Look提供技术支撑。
2、语音+唇动识别
在语音交互的过程中,对指令的准确获取是最关键的一步,而座舱复杂的环境、噪音和密集的人员增加了语音识别难度,近年新增的音区锁定在一定程度上缓解了该难题。但受限于语音单模技术瓶颈,采用单一语音技术的交互对体验的提升有限。
与唇动识别融合下的语音交互将极大提高语音识别性能,不同语言下的唇部动作不同,在嘈杂的座舱环境下,即使系统接收到声音很小,结合唇部动作也可以保障较高的语音识别率。
北汽极狐搭载的华为鸿蒙OS唇动识别(在研阶段)
—END—
(0)

相关推荐