人工智能理解常识的数十年挑战,如何让 AI 不再“智障”?
最新一波 AI 进步浪潮,结合了机器学习与大数据,已为我们提供能够对口头命令做出响应的工具,以及可以识别道路前方物体的自动驾驶汽车。
但不得不说,这些所谓“智能”产品的常识基本为零。
亚马逊智能助理 Alexa 与苹果智能助理 Siri 可以通过引用维基百科(Wikipedia)来获取某种植物的信息,但并不知晓将植物放在黑暗中会发生什么;能够识别前方道路障碍物的智能程序,通常也无法理解为何避开人群比避免堵车更加重要。
人工智能要变得像人一样聪明,常识推理能力是其必备的能力之一。但如何让人工智能理解常识,已是一个困扰了人工智能 50 多年的难题。
纽约大学教授欧内斯特·戴维斯(Ernest Davis)已经研究人工智能的常识问题数十年。他认为,理解常识对于推进机器人技术至关重要。机器需要掌握时间、因果关系和社交互动等基本概念,才能展示出真正的智慧。而这正是我们目前所面临的最大障碍。
常识问题是人工智能的重大盲点
“常识”一词不仅仅是指一种知识,还可以指对这种知识的看法,不是特定的学科领域,而是一种广泛可重复使用的背景知识,几乎是每个人都应该拥有的。
例如,人去餐馆是去吃食物而不仅仅是点菜和付钱的;把火柴扔到一堆木柴上,意味着有人在尝试生火。大多数常识知识的隐式属性,使得这类知识很难被明确表示出来。
IBM 沃森(Watson)计算机系统前首席研究员大卫·费鲁奇(David Ferrucci),如今正在向新发明的机器解释一个儿童故事。在这个故事中,费尔南多(Fernando)和佐伊(Zoey)买了一些植物。费尔南多将他的植物放在窗台上,佐伊则将植物扔在她黑暗的房间里。几天后,费尔南多的植物长得郁郁葱葱,佐伊的植物叶子却已变成褐色。在佐伊把植物转移到窗台上后,叶子又开始焕发生机。
费鲁奇面前的屏幕上出现了一个问题:“费尔南多将植物放在窗台上是因为他想让植物更健康吗?这是否有意义?洒满阳光的窗户光线充足,植物就能保持健康。”
这个问题是费鲁奇创造的人工智能系统努力学习世界运作方式的部分内容。对于我们而言,能轻易理解费尔南多将植物放在窗台上的缘由。但对于 AI 系统而言,这一点很难掌握。
费鲁奇和他的新公司元素认知(Elemental Cognition)希望通过教会机器获取并应用日常知识,来与人类进行交流、推理并观察周围环境,以此解决现代人工智能中的重大盲点。
研究人员通过在屏幕上单击“是”按钮,就能回答费尔南多植物的问题。而在某处的服务器上,一个称为 CLARA 的 AI 程序将该信息添加到事实与概念库中,学习这种人造的常识。就像一个永远好奇的孩子一样, CLARA 不断向费鲁奇询问有关植物故事的问题,试图“理解”事物为何以这种方式展现出来。
“我们能否让机器真正理解他们所阅读的内容?” 费鲁奇说,“这非常困难,但正是元素认知想要实现的目标。”
不过,这种方法依赖人工,不具有扩展性。新西兰奥克兰大学人工智能研究人员 Michael Witbrock 表示,能够方便地用逻辑形式表示的知识量,原则上是有限的,并且事实证明这种方法实现起来非常艰巨。
另一条通往常识的道路,是使用神经网络进行深度学习。研究人员设计这样的人工智能系统来模拟生物大脑中相互连接的神经元层,在不需要程序员事先指定的情况下学习模式。
在过去的十几年间,经过大量数据训练的越来越复杂的神经网络,已经变革了计算机视觉和自然语言处理领域的研究。然而,虽然神经网络具有较强的智能能力以及灵活性(实现自动驾驶,在国际象棋、围棋中击败世界一流的玩家),但是这些系统却仍然会犯很多令人啼笑皆非的常识性错误(有时甚至是致命的)。
在 2011 年,沃森计算机通过解析大量文本,找到了智力竞赛节目《危险边缘》问题的答案,但在理解常识方面仍有很多局限性。随后,人工智能领域的深度学习开始兴起。通过教计算机识别人脸,转录语音并向它们提供大量数据来执行其他操作,深度学习已得到广泛应用,且近几年在语言理解方面取得了新的突破。目前可以通过特定的人工神经网络生成问题答案或者具有连贯性的文本模型。谷歌、百度、微软,以及 Open AI 都已创建更复杂的语言处理模型。
以 CLARA 为例,其目标是通过明确逻辑规则,将深度学习与构建知识到机器中的方式相结合,主要使用统计方法来识别句子中的名词和动词等概念。
有关特定主题的知识来源于亚马逊 Mechanical Turkers,随后会内置到 CLARA 的数据库中。CLARA 再将其给出的事实与深度学习语言模型结合在一起,产生自己的常识。此外,CLARA 还能通过与用户互动来收集常识。如果遇到分歧,它可以询问哪种陈述最为准确。
尽管常识建模存在挑战,但 Yejin Choi 的调查显示,将来自深层预训练语言模型的隐式知识转移到常识图中生成显式知识时,结果很有希望。研究的实证结果表明,COMET 能产生被人类认可的高质量新知识,其最高1位的精确度能达到 77.5%(ATOMIC)和 91.7%(ConceptNet),接近人类的表现。使用常识生成模型COMET进行自动构建常识知识库,或许能成为知识抽取构建知识库的合理替代方案。
对 Pavlick 来说,COMET 代表了“真正令人兴奋的进步,但缺少的是实际的参考方面”。“苹果”这个词不一定就是真的苹果,这种意义必须以某种形式存在,而不是语言本身。”
Salesforce 公司的高级研究科学家 Nazneen Rajani 也在追求类似的目标,但她认为,神经语言模型的全部潜力还远未开发出来。她正在研究神经语言模型是否能学会推理涉及基础物理的常识情景,比如一个装有球的罐子被打翻通常会导致球掉出来。
“现实世界真的很复杂,”Rajani 说,“但自然语言就像一个低维度的代理,反映了现实世界的运作方式。神经网络可以通过文本提示来预测下一个单词,但这不应该是它们的限制。他们可以学习更复杂的东西。”
随着AI理解常识研究的不断突破,或许很快,我们身边的人工智能助手就会变得越来越聪明和善解人意。
参考资料:
1.https://www.wired.com/story/watsons-creator-teach-ai-new-trick-common-sense/
2.https://www.quantamagazine.org/common-sense-comes-to-computers-20200430/
3. https://indexfziq.github.io/2019/07/03/COMET/