通用人工智能的时代已经来临
本文旨在向读者指出通用性AI发展面临的许多挑战和误解。短期应用成果应与长远蓝图相得益彰。我们需要渊思寂虑,精进系统研发,从而理解主体感知,并使之实时适应不断变化的环境。
翻译 | 刘凯(渤海大学教育科学学院、渤海大学通用人工智能研究所)
能记忆和推理不同情境信息的个人AI助手总似“呼之欲出”,但直至鼠年年末,这样的AI助手竟仍未实现。同样,机器学习尽管进展斐然,可一旦离开“人工”协助,自主系统依旧难言“智能”——无法在不同学习中贯通数据并整合模型,以实现经验的跨领域迁移。
若将AI的目标设定为优化函数来解决领域问题,那么我们一直在与日俱进。很多曾被视作难如登天的特定问题(参考文献[1][6][11]),用最优化——尤其是深度神经元网络(DL)的反向传播来解决,已被证实立见成效,且远超人力之际。计算机视觉、机器翻译、语音识别、棋艺博弈、电子竞技等诸多领域焕然如新——人工智能正迅速被全面“驯化”。
正所谓“莫为风波羡平地,人间处处是危机”,此类“驯化”的共同缺陷是:学习仅发生在模型部署之前。可事实上,实时学习才是动物获得生存优势的智能展现。相较而言,支撑机器学习的脊檩则是狭隘的学习理念。更深入地看,所有的离线优化(Offline Optimization)问题,本质上都是基于进化而非个体智慧。例如,假定被植入某种遗传密码,转基因萤火虫就能准确探测特定猎物并成功捕食。这种情况下,萤火虫无需实时学习便可拥有相应技能。类似地,只要预装导航、定位、目标检测(Object Detection)等预置功能的模块或经离线优化设定参数,自动驾驶汽车就应该能够即开即走。
时至今日,如何从离线优化转向快速可靠的实时学习,主流人工智能仍未给出令人信服的回答。但这既是对智能本质之叩问,也是人工智能的初心所向。与荒野生存的动物一样,通用人工智能(Artificial general intelligence,AGI)能够在运行时应对无法预见的情况。快速和可靠的适应力不仅能够推动新一代机器人及个人助手的实践发展,也理应被视为智能理论的那块“核心拼图”。
对“智能”一词的理解万别千差、百口不一,王培为此专门撰写《人工智能定义专论》一文,并刊发于《通用人工智能》(JGAI,2019年第10卷)。这篇文章被认为是解决人工智能领域核心历史遗留争议最给力的尝试之一,受邀的同行评议专家多达110位,且广泛来自多所著名大学以及DeepMind、Google Brain等知名业界公司。文章标靶为智能的“非主流”定义,即“智能是知识和资源不足情况下,主体对环境的适应能力”。尽管该定义在另一项对567名人工智能专家的调研中高票获选,但对资源限制和实时适应必要性的质疑之声也同样存在。有些质疑源自人工系统与生物系统的差异,认为后者总是在知识和资源不足的条件下通过演化进行适应,但部署后的AI系统则无需再配备这种能力。
对智能本质的不少误解都为忽视实时学习所致。比如,遗传算法(GA,参考文献[5])有时被当做强化学习(RL,参考文献[12])的“替身”。诚然,根据前文所述,遗传算法之于强化学习,正如进化之于智能。但只有当学习发生在海量的代际实例模拟中,上述类比方才成立。而这对自主机器人或动物毫不适用,因为二者都能在单次生命周期内以最快速度适应未知环境。很显然,只要致命事件发生一次,个体学习也就戛然而止。这也正是高度模拟领域(如参考文献[11])取得了巨大成功却难以“变现”的主要原因。于是,与实时的适应性系统相比,离线优化这位“同学”着实有些志大材疏。
机器学习视角下,存在三项重要挑战:
一是,智能主体若想适应动态(非稳态)环境,“好用”的决策理论便不可或缺。对动物而言,这是通过进化实现的。但对机器而言,单独个体的一生中却无法学到。因此,尽管离不开先天预设,但其行为表现则是先天和后天的相互结合。
强化学习就是一个非常成功的决策理论(RL,参考文献[12])。虽在非稳态环境中难堪大用(主体的适应性需求与学习速率衰减是一对矛盾),不过至少能够用于实时学习。强化学习有一些主要概念的限制,基于行为主义的强化学习最为常见。通过对具有最高预期回报的“状态—行为”之间的响应映射(策略)进行学习,且无须对所在情境的其他因果关系进行建模,令此类主体具有奖励中心主义的世界观。这意味着,一旦效用函数发生变化,主体就必须重新习得一个新策略,既有知识也无法借助先天设计而迁移到新任务中。对于存在单一明确取胜标准的电脑游戏来说(如:赛车游戏中的圈速、象棋中的将军等),效用函数的变化不是问题。但对于生物系统而言,这却是日常的现实考量。
动物在饿与渴的时候行为完全不同,前者会寻找猎物或美味的枝叶,后者会寻觅水源。也就是说,个体行为不仅取决于外部因素,也取决于内部需求。当出现特定需求时,个体寻求“因果知识”,这一知识会自动迁移到解决下一次其他需求。如此,便能对不断变化的需求予以及时响应。但是,个体并不总能预先知道该如何满足特定需求。要解决这一问题,可将具体信念与动机系统解耦,令主体在不同的环境中学习到行为的不同结果,建立不同的因果模型。这是那些抱持AI初衷的AGI研究者所追求之路,但在专用人工智能(Special-purpose AI,SAI)领域中却常常无人问津。
二是测量。毋庸置疑,不测量便无从知晓是否有进步,但测量的对象也很重要。我们在每个领域下测试主体表现,如果允许对不同领域设定不同的超参数(译者注:在机器学习中,模型“自学”得到的是参数,无法“自学”必须由“上帝”赋予的是超参数。深度学习“炼丹师”的一项重要操作就是对超参数的调校),得到的将是不同主体的“专项成绩”。虽在应用层面上十分有用,却对了解个体的一般性顿口无言。另一方面,如果因领域各异而设定不同超参数不被允许,那么得到的则是主体“各科考试”的“总成绩”。
目前,最好的通用系统仍无法与专用系统(其超参数针可对特定目标领域进行调整)相媲美,但最好的专用系统其通用性得分却不会很高。类似情形在自然界比比皆是(如图1所示),尽管在特定静态环境,特定的专用方案往往是首选,但通用性却能使适应特殊环境条件变得更为容易。
图1:高专用性的昆虫与高通用性的昆虫
从上述讨论中可以窥见:
衡量AGI成功与否需要改变已有的评估方式。AGI亦非AI超集,特定领域内大发神威的专用化最优方案,很可能在其他领域百无一用。在通向AGI的道路上,尽管并非总是,但一般情况下确与专用能力交集寥寥。
写作此文正是想向读者指出通用性AI发展面临的许多挑战和误解。短期应用成果应与长远蓝图相得益彰。我们需要渊思寂虑,精进系统研发,从而理解主体感知,并使之实时适应不断变化的环境。
三是系统实现。非知之艰,行之惟艰。打造具有通用能力的系统实属不易,我们只是在漫漫前行路上迈出了一小步。王培提出的非公理逻辑推理系统NARS(Non-Axiomatic Reasoning System)[9]便是其中重要一例。NARS项目历经30余年,在实时学习、推理和目标满足等关键领域成效斐然。系统能通过自身感知对环境进行建模,适应环境,通过推理来决定下一步行动,从而实现自我目标。近期的研究亮点是,将深度神经网络(YOLOv4,参考文献[1][6])的视觉感知与NARS实时学习和推理能力(OpenNARS for Applications,参考文献[4][13])进行整合,很好地完成机器人瓶子收集的任务(如视频所示)。
机器人寻找瓶子、机器人抓住瓶子
机器人举起瓶子、机器人运送瓶子
图2:体现NARS实时推理与学习能力的瓶子收集任务
视频演示:[瓶子收集任务] [抓、举动作更替]
救援机器人 探险机器人 基于智能手机或PC的个人助手
最后,总结本文要点如下:
AGI与SAI根本目标各异——通用VS专用
AGI与SAI评价方式完全不同
实时适应性是智能系统的必然要求
NARS所依据的通用推理系统是实现真正智能的一种方法
参考文献