离开阿里创业后融资上亿,为何莉莉丝等大厂会青睐他们的AI技术?
技术是产品想象力的基石。文/依光流假如给你的游戏安排一个7x24小时不吃不睡,能打出高中低水平,运用成百上千种风格和策略的虚拟玩家,你会用它来做什么?在三年前创业的时候,袁泉和龙海涛并没有什么明确的设想和答案,他们只是看中了AI兴起的趋势,从阿里出来创办了新公司启元世界。游戏圈的朋友可能不太了解,这两位都是大神级的科学家,在阿里留下了辉煌的战果。袁泉曾在阿里认知计算实验室担任负责人、资深总监,缔造了手机淘宝、手机天猫的推荐算法,是阿里算法技术的P10科学家。龙海涛曾是IBM中国研究院研究员,在阿里期间从事搜索广告业务的架构设计,主导了离线系统、在线引擎和搜索内核的升级换代。今年6月,启元世界研究的星际AI以两个2:0的成绩击败了《星际争霸I/II》全国冠军黄慧明(TooDming),以及黄金总决赛三连冠选手李培楠(TIME),也意味着中国星际AI首次在公开比赛中战胜国内顶级职业选手。
拿到这样的成绩之后,启元世界也越发被资本关注。目前,该公司已累计获得上亿人民币融资,由高榕资本等知名机构投资。不仅如此,不少一线游戏厂商也看中了启元AI的应用前景。从今年起,启元团队陆陆续续接触了不少一线游戏厂商,发现大家的需求和想法远高于预期,有的厂商则已经开始实际投入运用了。“会决策”的新一代AI几年前,AI领域正是AlphaGo火爆的时候,对启元的创始团队而言,它就像是打开了一个新的窗口:“不需要大量的标注数据,就能训练出一个打败世界冠军的AI。”看到这个契机,他们决定离开阿里自行创业,并选择了决策智能和强化学习方向,用《星际争霸II》来尝试技术突破。与人脸识别等AI选择的监督学习技术不同,强化学习要求AI像人一样,能做出连续的动态决策。举个简单的例子,同样是面对猫和狗的两类数据,监督学习会对数据标注“猫”和“狗”的标签,让AI进行分类学习,然后用未标注的数据,让AI辨别,最后通过神经网络的结合,优化AI的识别效率;强化学习则不会具体标注是“猫”还是“狗”,同时还需要训练出的AI看到猫以后,能做出“撸猫”的决策,看到狗还会做出“上前逗一逗它”的决策。这种更高门槛的技术要求,带来了不少的难题,也使得业内挑战这一领域的团队偏少:从商业化的角度考虑,这套技术的成本一定要控制在比较低的水平,否则成本降不下来,无法大规模商业化。从技术底层的角度来看,首先强化学习需要很大的算力,算力的组织如果做的不好,实现的效果会产生几个数量级的差距;其次是算法需要结合具体的应用场景做大量的最佳实践积累;第三是整个团队的专注和极致深耕能力。好在,启元世界在强化学习领域起步早,核心团队在BAT、Netflix、香港科大等一流的工业场景和研究平台上积累了多年,他们渐渐积累了一支近百人的技术团队,专攻这一方向。而为了让启元AI达到现在《星际争霸II》的“职业玩家”水平,他们做了几百组的实验,来筛选和优化合适的算法。
去年底在加拿大NeurIPS 2019会场上,启元星际AI首次公开经过三年的打磨,终于攻克了这些难关。现在启元AI相比海内外大厂的同类AI,基本可以节省一到两个数量级的算力。有了这套底层的技术,启元AI才能在今年6月战胜国内星际顶级选手。在今年China Joy参展之后,龙海涛明显感受到来自游戏厂商的关注,包括莉莉丝等来自上海、广州的一线大厂,原因在于新一代游戏AI设计的需求在变多。游戏AI存在了非常多年,但传统游戏AI设计至今一直鲜有变化,与游戏图形技术的高速进化形成了鲜明的对比。“传统游戏AI依靠行为树的规则来设计,它的弊端在于规则是写死的,当游戏复杂度超出程序员设定的框架,AI就不知道该怎么办了。”所以基于行为树,既不能写出能战胜柯洁的AI,更不可能写出能通过经验反馈不断自我学习、还能表现出高维度即时策略的复杂智能体。这就好比是很多竞技游戏中的“人机”、“机器人”,它们并不像人。启元团队发现,其实大家对AI的强度并没有太高的追求,但对它的拟真度、真实性会有很高的要求,这恰好是模仿学习、强化学习、演化学习的强项。比如在训练启元星际AI的时候,他们实现了260种TvT(指《星际争霸II》人族内战)的战术,包括开局打法、兵种组合,以及多种即时性的随机应变策略等。它的拟真度,高到足以让职业选手无法分辨真伪。
在之前举办的比赛上,《星际争霸I/II》全国冠军黄慧明打完以后告诉他们,说完全看不出像机器人,还用“像一个贱贱的高手”来形容启元AI:“看起来操作不太行,有失误,觉得自己是有机会的,但实际打上去又打不过。”很多职业选手与启元AI切磋之后,同样有这种被下了套的感觉。不过这只是AI的一面,启元AI的泛化能力也很强:“由于AI可以不停地学习,只要算力足够,它就可以覆盖很多的场景,套路更多,也会更加灵活。”这样的AI,放到游戏里能做什么?与数十家一线游戏厂商交流之后,启元团队收到了很多的建议,比如大DAU产品冷启动、新手过渡保护、加速匹配、掉线托管等方面。还有模拟战局、大体量数据的平衡性调试,以及PVE活动设计、玩家行为分析等方方面面。从目前已有的合作案例来看,启元AI具体有两个方向的应用:虚拟玩家陪玩和线下数值测试。虚拟玩家陪玩,是目前厂商反馈中最普遍的一类应用模式。在前面对抗星际顶尖选手的时候,启元AI用的是训练了上千万对局的智能体,但在训练中的每个阶段,启元AI都可以调用出不同水平、不同风格的智能体。“在线下训练的时候,智能体会自己打足够的时间,通过自我对抗来提升水平,我们会设置类似天梯的规则,让智能体打出不同的水平。这时候我们会计算一个分值,来区分不同水平的智能体,然后用人工校准一下,来对齐现实玩家的段位水平。”这时候,尽管智能体的最终目标都是取胜,但不同段位不同局面之下,它会体现出猥琐、激进、稳健等不同的风格和打法。将这些智能体部署到服务端,通过调节参数调用的方式,就可以生成对应段位、打法、风格的智能体,成为一个虚拟的玩家。在这个基础上能做的事情就非常多了。首先是大DAU产品的冷启动。对于大DAU游戏而言,前期用户体量决定游戏给人的热度和匹配体验,而如今买量成本高居不下,适度投放虚拟玩家就可以降低启动门槛。据了解,由于服务端的部署采用了团队擅长的分布式架构、在线服务器集群等设计,所以现在他们可以做到智能体的大规模并发服务,这带来的益处是成本的大幅度降低:“一个虚拟玩家的成本差不多只有真实玩家获客成本的几十分之一。”其次可以实现更好的新手保护机制。在上手门槛较高的游戏里,再加上竞技游戏老手炸鱼的问题,往往给新手的体验会很差,匹配AI就可以很好地保护新手体验。而虚拟玩家比常规AI的拟真度高出很多,当玩家察觉不出是否为真人的时候,保护机制带来的体验就会更好,最终这些正向反馈,都会提高游戏的新手留存率。第三是长线运营上的玩家维稳和唤醒。对于运营时间较长的游戏,往往需要厂商花很大的精力防止流失和召回老玩家,而在提高现有玩家活跃度的过程中,加入智能体可以更好地烘托气氛,提高匹配速度、避免玩家长时间找不到人一起玩的问题。最后是高端对局的加速匹配。在绝大多数游戏当中,排除游戏刚上线的情况下,新手区间和高玩区间的人数分布往往偏少,大多数人会集中在中间的水平,所以与新手体验需要保护一样,高端局的匹配速度也可以借助智能体来提高。总体来看,虚拟玩家最有价值的地方,是它能以相对低的成本对流量缺口进行适度的填补。“相当于是有一部分非付费玩家来帮你玩游戏。”除了虚拟玩家陪玩,线下数值测试也是一个很有价值的应用方向。因为启元AI可以基于算力,在短时间内产生大量的对局,而且可以衍生出不同水平,甚至极端水平的智能体。所以在不招募大量玩家的前提下,就可以借助智能体来进行游戏数值平衡性的测试,预知问题点并进行调整。“与我们合作的一款游戏,在做线下测试的时候,发现某个武器的胜率只有40%,整体偏低,在反馈给策划调整属性之后,武器的胜率提升到了45%以上,这时候对局的平衡性就比较正常了。”类似的,通过调整不同的参数,比如英雄属性、技能看英雄胜率,同样可以针对性地调整平衡性。如果仔细挖掘,启元AI还有一些更细节的、功能化的应用空间。比如通过胜率预测来做玩法指引、操作指引,引导玩家做出更有效的决策;又如最强人机挑战等PVE玩法,提供不同水平、有独特风格、能随机应变的智能体供玩家挑战;还有掉线托管,降低同队伍其他玩家的负面体验等等。要实现这些功能也得做一些准备。首先是对接。把游戏的环境改造成AI可学习的环境,通过智能体与游戏的信息交互来训练。通过启元提供的SDK开发工具,一般复杂度的游戏几周时间就可以完成对接。其次是训练。构建好学习环境后,启元AI会在私有云上部署,通过智能体联赛,来进行自我学习,学习的时间视游戏复杂度和所需智能体水平而定。比如用《星际争霸II》训练职业水平的智能体花了两个月的时间,尤其在99%胜率到99.8%胜率训练过程中,消耗的算力和时间最多。但低复杂度的游戏、中低水平的AI耗时会少很多。第三是部署。训练好的智能体会通过服务器部署,游戏通过设定相应难度、风格,直接调用智能体进行真实的游戏对局。“你可以理解成7x24小时,不吃不睡,智能体就在那儿等着,随时可以匹配你的游戏对局,打完一局以后就再打一局。”技术是产品想象力的基石总体来看,现在启元世界的AI技术更多的是应用在MOBA、FPS、MMO、SLG等需要大量用户,存在多人交互场景的游戏当中,但它的应用空间其实远不止这些。从短期来看,既然启元AI可以模仿RTS、MOBA、FPS等重度竞技类游戏的玩家,那么在受众门槛更低的休闲竞技品类中,自然也有发挥的空间。比如《糖豆人》、《荒野乱斗》、“.io”类,以及《我飞刀玩得贼溜》等游戏,其实都可以引入虚拟玩家,来产生多变对局体验。稍微长远一些来看,NPC真实模拟,如3A大作中有自己生活规律,随时可与玩家进行多种互动的角色,也是可以借助AI来实现的。再放大来看,基于这种NPC模拟,去构建开放世界中一个自主运转的城市、国家、种族,都是可以遐想的做法。
为了更进一步实现这些想法,启元世界的AI技术也在快速迭代中。目前他们正着手研发第二个大版本,除了在算力效率上会提高数倍之外,也会突破更多的算法效果,真正实现“Have Fun with AI”的愿景。其实,对启元世界这样钻研技术服务的公司来说,他们能提供的,更多还是承载想象力的智能工具和平台。怎么用新一代的游戏AI技术这个问题,归根结底是对游戏创意设计的拷问:“假如你有一个随时可以调用、拟人化的、高水平的、能适应不同风格的虚拟玩家,你打算怎么用?”