这些名校学霸打开《王者荣耀》的方式,让我大受震撼
这背后的意义,可能还远超你我想象。文/以撒前段时间,《你是我的荣耀》这部剧上了不少次热搜。剧中把游戏、爱情和航天科研串联在一起,让不少人觉得十分新奇。但如果我告诉你,《王者荣耀》真的和科研联系紧密……你会不会感到意外?实际上,有一群来自北大、电子科大、清华、上交大、中科大……等超过20所名校的学霸,就在利用《王者荣耀》做AI技术的科研。他们打开《王者荣耀》的方式,和我想象的确实不太一样——他们要利用强化学习技术,训练AI成为游戏高手,而非自己上阵操作。最近,他们还要参加腾讯AI Lab与《王者荣耀》、腾讯高校合作、腾讯游戏学院等共同举办的第二届“开悟AI+游戏高校大赛”(下称大赛),相互较量一下训练成果。在初赛开展前,葡萄君采访了去年第一届大赛冠亚军两支队伍——中科大和电子科大——的队长与导师,听他们讲了讲《王者荣耀》和科研的那些事儿。01逼导师开会、没日没夜钻研,就为了“教会孩子”如何教会AI打《王者荣耀》?中科大队伍的队长赵鉴博士告诉我,在比赛设定下,AI和人类的反应速度相当,且各个高校的设定完全一致。因此,各个高校比拼的是如何归纳出正确的决策思路,并在模型中设计行为的权重、操作的触发条件,以及决策是否正确的反馈机制。为了做到这些,队员们往往要将游戏经验与算法设计融合起来,再用代码验证思路,并且一遍遍地观看录像、复盘总结。比起寻常的竞技,这种感觉大概更像调兵遣将的战斗。举个例子,在去年大赛的初赛环节,选手们要用貂蝉1v1决出胜负。中科大提炼出了一条关键信息:在位移时,貂蝉二技能的无敌帧可以规避伤害,因此两个貂蝉对线时,谁能把二技能握得更死,谁就更有可能立于不败之地。
为了优化这个操作,他们给二技能的触发加了许多限制条件,例如周边必须有敌方单位,或者出现敌方英雄的技能弹道时才能使用。于是当两方陷入了“谁先放二技能谁死”的博弈之中,就会等待机会、开始比拼经济优势。在条件满足的情况下,AI甚至会利用二技能越塔强杀。
到了5v5的AI对局中,情况会更加复杂,因为比起单兵作战,让AI学会团队合作是件更难的事。这要求AI拥有更强大的大局观,而不是仅仅以自己的经济、经验优势作为正向反馈。在学术界,这是一个有多年研究历史,但还处于早期阶段的课题——多智能体强化学习。要在《王者荣耀》中实现智能体之间的配合,最大的难点就在于,角色不断变化的动作状态实在有太多可能性,只要算法上出现一点点偏差,AI的行为就会谬以千里。电子科大队伍的队长杨郭镳告诉我,他们此前的研究载体,更多是雅达利的一些小型游戏,抑或是斗地主、麻将之类的传统棋牌。而到了《王者荣耀》的复杂环境中,以前的这些经验可以说受到了“降维打击”,他们必须不断查阅论文、改进方法。
雅达利游戏的画风听起来这么艰难的一件事,应该没有多少学生愿意参加和坚持吧?可恰恰相反的是,赵鉴告诉我,在面向本科生选拔队员时,他一下子收到了60多份简历。最后确定的5个队员,不仅编程能力强,而且在《王者荣耀》里人均都是王者段位。无独有偶,电子科大的队伍也有不少学生报名。他们之中的一部分人,可能不会作为正式队员直接参赛,但也同样在过程中有所收获。在研究算法的那段时间,杨郭镳带领的队伍往往会同时提出3-4个方案,这让他们没日没夜地干起来,甚至于逼着导师去实验室开会。虽然结果可能是全部推倒重来,可在这种复杂环境下,AI的不确定性又让他们相当痴迷。比如在“团队意识”培养到位后,AI就有可能打出一些非常人性化的操作。杨郭镳提到,他们训练出的辅助张飞,会主动帮狄仁杰扛塔,以让他把防御塔点掉。看到这样的成果时,他们往往会非常兴奋,甚至比自己打出来还高兴得多,因为这种感觉就像“教会了孩子”一样。而在经历这些之后,或许比赛结果已经没那么重要了。电子科大的谢宁教授告诉我,这样的实战机会让学生们变得更加成熟。这种成熟不仅是技术能力、项目思维以及团队合作能力的提升,同时还有站在未来应用角度,看待AI技术价值的能力。02游戏不仅是AI研究的“果蝇”,还可能带来下一次变革在利用《王者荣耀》研究AI这方面,感兴趣的还不止是这些学生。据葡萄君了解,北大、电子科大、清华、中科大的四位教授,正在基于腾讯开悟平台,分别开发一门多智能体及强化学习平台的专业课程。中科大信息科学技术学院的副院长,李厚强院长告诉我,讲解基础理论知识后,他们打算在课程中让学生们直接上手实践,组成小组用《王者荣耀》AI对战,就像大赛形式一样,从1v1逐步提升难度。并且他还一直有个设想:在校内成立一个“用AI打游戏”的社团——这个设想得到了学校多方支持,或许在一个学期内就能实现。这样的事乍一听到,似乎让人难以置信——啥?我平时和朋友开黑的游戏,还能用来学习?但李院长告诉我,AI学术界有一句话:游戏是AI研究的“果蝇”。在遗传学研究中,果蝇是既低成本又便捷有效的实验载体;而对AI研究来说,游戏也一样——如果必须用自动驾驶、机器人等方式来验证算法,高昂的代价可能会让行业发展陷入泥潭。而且相比其他形式,游戏也更容易让年轻人有研究热情。谢教授告诉我,他每年都会调研学生的择业目标,已经持续七八年之久。结果发现,在他所带的数字媒体技术与制作专业中,80-90%的学生都目标清晰——尽管老师已经在开课前强调“这门课不是游戏课程”,但在自我介绍时,依然会有一大波人表示想做游戏。你以为到这儿就完了?不,如果我们把视角再拉高一些,游戏的意义可能还远超你我想象。就拿《王者荣耀》与腾讯AI Lab推进的多智能体强化学习来说,这项技术的底层思想与算法,和很多非互联网领域的应用都是共通的。比如民用领域的智能交通、电力调度、物流调度……军用领域的无人机群协同作战等。以交通为例,每个红绿灯都可以被视为一个智能体。那么当AI调度起城市中所有红绿灯协作,就有可能减少一些不必要的堵塞,让车流更加顺畅。
图源自网络与此同时,想要在5v5团队竞技中实现多智能体协作,其难度甚至超过了这些非游戏领域。也就是说,当科研人员们在游戏中把技术打磨成熟,对其他领域的应用就会更加得心应手。一旦这些技术投入使用,我们的生活就可能发生相当大的变化。另外,多智能体技术甚至有希望给社会科学领域带来变革——利用逆强化学习,我们可以把许多对象都看作智能体,并且用建模构建出这个智能体的风格、特征等信息。这个对象可以是人事物,也可以是社会、经济体。说到这儿,你应该懂我意思了——有了这样的技术,利用AI推测出一些社会、经济发展的规律也是完全可能的。谢教授告诉我,多智能体的强化学习,往往一半依靠已有的经验,另一半依靠自身的探索,某种意义上,它可以成为我们探索世界的工具。因为它的坐标轴“一半在过去,一半在未来”。03十几年前“没有应用前景”的AI,里程碑一个接一个出现听过他们的观点之后,我对《王者荣耀》有了些不同以往的看法。电子科大的谢教授告诉我,2012年左右,他在瑞典乌普萨拉大学读博时,就已经开始计划一些大规模的AI科研课题。但在实验室做了大量基础研究之后,论文里能写的却只有理论——因为他们和企业的合作谈不下来,大规模验证也没有平台能实现,这些项目只能陷入冬眠状态。那时他的导师甚至觉得,强化学习这个方向大概活不了几年了。后来,当AlphaGO走入了大众视野,不少人才发现了AI的可能性,也感受到了游戏对AI技术发展的巨大推动。不过,如今游戏AI研究仍然存在一些问题。李院长告诉我,一般的高校或机构,都很难承担起AI技术的大规模研究。就拿《星际争霸2》来说,它整体对算力要求较高,同时也需要分布式网络架构来提高效率。在这种前提下,《王者荣耀》的游戏规模、环境,以及腾讯开悟平台提供的基础条件,正好能为他们集中精力研究AI算法提供很大的帮助。除了与多智能体相关的技术,也能用来验证如蒙特卡洛算法的一些AI搜索算法。目前,这些名校中就有不少团队在与腾讯合作研究。比如回到国内之后,谢教授那些陷入停滞的课题就被重新启动了。这样的变化,让他颇有种“天时地利人和”的感觉。是啊,从AI的发展历程来看,游戏一直都在制造里程碑式的事件:1956年,国际跳棋就开始使用强化学习算法,几年后它战胜了人类高手;20世纪90年代,双陆棋、国际象棋AI也纷纷超越人类;再然后,就是我们熟悉的围棋AI、《星际争霸2》AI、《DOTA2》AI……
那么下一个里程碑,会在何时出现?或许,是该《王者荣耀》上场了。