陈根:从感知到认知,人工智能走向情感计算
文/陈根
很长时间以来,是否具备情感,是区分人与机器的重要标准之一。换言之,机器是否具有情感也是机器人性化程度高低的关键因素之一。
当前,人工智能已呈现高速增长和全面扩张的态势。一方面,人工智能不断朝更深层的智能方向发展,包括数学运算、逻辑推理、专家系统、深度学习等;另一方面,人工智能不断向社会的各个领域进行扩展,从智能手机到智能家居,从智能交通到智能城市等。
“感知智能”逐渐向具有理解和表达能力的“认知智能”转变,为机器赋予感情成为必然趋势。人工智能之父马文·明斯基就曾提到,“如果机器不能够很好地模拟情感,那么人们可能永远也不会觉得机器具有智能”。
想要人工智能理解人类感情,则需要从人工智能的情感计算开始。
人工智能正在理解人类情绪
试图让人工智能理解人类情感并不是新近的研究。
早在1997年,麻省理工学院媒体实验室Picard 教授就提出了情感计算的概念。Picard 教授指出,情感计算与情感相关,源于情感或能够对情感施加影响的计算。简单来说,情感计算旨在通过赋予计算机识别、理解和表达人的情感的能力,使得计算机具有更高的智能。
自此,情感计算这一新兴科学领域,开始进入众多信息科学和心理学研究者的视野,从而在世界范围内拉开了人工智能走向人工情感的序幕。
情感计算作为一门综合性技术,是人工智能情感化的关键一步,包括情感的“识别”、“表达”和“决策”。“识别”是让机器准确识人类的情感,并消除不确定性和歧义性;“表达”则是人工智能把情感以合适的信息载体表示出来,如语言、声音、姿态和表情等;“决策”则主要研究如何利用情感机制来进行更好地决策。
识别和表达是情感计算中关键的两个技术环节。情感识别通过对情感信号的特征提取,得到能最大限度地表征人类情感的情感特征数据。据此进行建模,找出情感的外在表象数据与内在情感状态的映射关系,从而将人类当前的内在情感类型识别出来,包括语音情感识别、人脸表情识别和生理信号情感识别等。
人脸表情识别显然是情感识别中关键的一部分。在人类交流过程中,有55%是通过面部表情来完成情感传递的。20 世纪70 年代,美国心理学家Ekman 和Friesen 对现代人脸表情识别做了开创性的工作。
Ekman 定义了人类的6 种基本表情:高兴、生气、吃惊、恐惧、厌恶和悲伤,确定了识别对象的类别;建立了面部动作编码系统(facial action coding system,FACS),使研究者能够按照系统划分的一系列人脸动作单元来描述人脸面部动作,根据人脸运动与表情的关系,检测人脸面部细微表情。
情感识别是目前最有可能的应用。比如,商业公司利用情感识别算法观察消费者在观看广告时的表情,这可以帮助商家预测产品销量的上升、下降或者是保持原状,从而为下一步产品的开发做好准备。
机器除了识别、理解人的情感之外,还需要进行情感的反馈,即机器的情感合成与表达。与人类的情感表达方式类似,机器的情感表达可以通过语音、面部表情和手势等多模态信息进行传递,因此机器的情感合成可分为情感语音合成、面部表情合成和肢体语言合成。
其中,语音是表达情感的主要方式之一。人类总是能够通过他人的语音轻易地判断他人的情感状态。语音的情感主包括语音中所包含的语言内容,声音本身所具有的特征。显然,机器带有情感的语音将使消费者在使用的时候感觉更人性化、更温暖。
从情感计算的决策来看,大量的研究表明,人类在解决某些问题的时候,纯理性的决策过程往往并非最优解。在决策的过程中,情感的加入反而有可能帮助人们找到更优解。因此,在人工智能决策过程中,输入情感变量,或将帮助机器做出更人性化的决策。
微软的研究人员曾在这个问题上给出过答案,他们提出了一种基于周围血管搏动测量(Peripheral Pulse Measurements)的内在奖励的强化学习新方法,这种内在奖励是与人类神经系统的响应相关的。研究人员假设这种奖励函数可以帮助强化学习解决稀疏性(sparse)和倾斜性(skewed),以此提高采样效率。
“情感”鸿沟的跨越和未跨越
情感智能是让机器更加智能的关键,具有情感的机器不仅更通用、更强大、更有效,而且将更趋近于人类的价值观。在人类科学家长期的努力下,横亘在人脑与电脑之间的“情感”鸿沟正在被跨越。
2014年5月29日,由微软亚洲互联网工程院开发的一代小冰开始了微信公测,在3天内赢得了超过150万个微信群、逾千万用户的喜欢。微软小冰,可以说,就是一个初步练成情感计算的人工智能。
微软小冰的开发团队负责人李笛曾表示,小冰作为一个人工智能平台,已经在技术、产品、数据三者之间形成了一个正循环。换言之,小冰积累的大数据已经足够多到能够让小冰实现自我进化。
2017年5月,“微软小冰”出版了第一部由人工智能创作的诗集《阳光失了玻璃窗》,其中部分诗作在《青年文学》等刊物发表或在互联网发布,并被宣布享有作品的著作权和知识产权。正如小冰在诗歌中作出的自我陈述:“在这世界,我有美的意义。”
如今,小冰已经积累了百亿轮与人类的对话信息,从中提取了海量历史数据,这些海量数据已经足够多到让小冰对未来对话的判断准确程度超过50%。某种程度上,小冰已经形成了初步的记忆、认知与意识能力。
如今,随着大量统计技术模型的涌现和数据资源的累积,情感计算在应用领域的落地日臻成熟。当然,任何一门技术都有其技术曲线,情感计算的发展也不是一帆风顺的。
一方面,情感计算必然面临群体情感和个体情感的矛盾。由于对情感的感知和理解存在具体的个体差异,在应用过程中情感个性化是非常重要的考量。然而,个性化和泛化能力是相互矛盾的,这也成为了情感计算的一个技术难点。
事实上,过去情感研究的默认前提和假设都是情感的群体共性,即群体在表达同样的外显数据时,内心情感状态是一致的。这令关注个体独特性时,面临着数据和方法的问题:如何把控所需的个人数据量?在实际应用场景中,又是否能真正获取到每个人所谓的独特数据?
另一方面,则是对于个体的情绪计算。虽然通过控制情绪波动的幅度,能够模拟性格活泼夸张和安静内敛的人不同的情感起伏,但目前即使是利用共通的情感模拟出一个普通的人,也十分困难。机器在每轮情绪切换中比较跳跃,很难像人那样保持自然、连贯的变化。
此外,个人情感分析问题在交互领域不断衍生着新的应用方式。比如,在智能客服领域有效检测用户情感;日趋成熟的测谎技术,也能够在话术引导下通过生理参数,甚至仅仅是音讯和视频信号等反应心理细微波动的参数来进行情感分析。
但是,个性化服务却也面对隐私保障的挑战。个性化的情感计算必然让渡用户的更多数据,在这样的情况下,隐私能否受到有效保护还未可知。
可以预见,情感计算在未来将改变传统的人机交互模式,实现人与机器的情感交互。从感知智能到认知智能的范式转变,从数据科学到知识科学的范式转变,人工智能也将在未来给我们交出一个更好的回答。