下一代AlphaGo问世：数十款游戏全面碾压裸考也能拿满分

2024-06-22 07:35:24

Google 母公司 Alphabet 旗下的 DeepMind，在这一个月里大动作频出。

先是在月初推出了蛋白质结构预测 AI——AlphaFold 2，这个 AI 在 CASP 竞赛中拔得头筹，解决了困扰了学界 50 年的难题：生物学家 Andrei Lupas 本人花了十年时间，用尽各种实验方法也没能弄清楚一种蛋白质折叠后的形状，但借助 AlphaFold 2 后，他在半个小时内就得到了答案。

接着，在月底，DeepMind 在《自然》杂志上发布论文介绍“进阶版 AlphaGo”——MuZero。简单来说，MuZero 更“通用”了，它精通国际象棋、围棋、将棋，还能在数十款 Atari 游戏上全面超越过去的 AI 算法和人类。

但更具革命意义的是，MuZero 不像它的前辈们，它在下棋和游戏前完全不知道游戏规则，完全是通过自己的试验和摸索，洞悉棋局和游戏的规则，形成自己的决策。换句话说，AI 会自己“动脑子”了。

MuZero 就像是 Netflix 热剧《女王的棋局》里的贝丝 · 哈蒙，在完全不知国际象棋规则的情况下，凭借几次观察就把棋盘“画”在自己的心里，并通过不断复盘棋局强化自己的直觉，最终所向披靡。

不知道规则，怎么赢棋？

2016 年，AlphaGo 横空出世，以 4:1 击败韩国顶级棋手李世乭，并在 2017 年的乌镇围棋峰会上击败了世界第一棋手柯洁。中国围棋协会甚至当即授予 AlphaGo 职业围棋九段的称号。

AlphaGo 依赖的还是 DeepMind 输入的专家棋法数据集，然后它的继任者 AlphaGo Zero 开始摆脱对“人类数据”的依赖，开始通过多次自我对弈积累所需数据。2018 年底问世的 AlphaZero 更是在前两者的基础上迭代，除了围棋，它还学会了将棋和国际象棋。让人叹为观止的是，从第一次见到棋盘，到成为世界级棋类大师，AlphaZero 只用了 24 小时。

“但你不能像下棋一样，只顾着往前看。你必须学习这个世界如何运作。”DeepMind 的首席研究科学家 David Silver 告诉《连线》，按照这个思路，他们决定不提前告诉 AI 该怎么赢了，“这是我们第一次打造这种系统”。

上面提到的“Alpha”家族，最早需要“人类数据”、“领域知识”和“游戏规则”，至少也还需依赖“游戏规则”。而刚面世的 MuZero 则没有这些知识储备，就像是下棋被蒙着眼，玩游戏背着手。

“Alpha”家族至少也还需依赖“游戏规则”，而刚面世的 MuZero 则没有任何知识储备

既然 MuZero 连怎么赢棋都不知道，那它又是如何学习世界运作原理的呢？先以 AlphaZero 为例，由于它已经知晓棋局的规则，所以它知道一个动作后的下一个棋步是什么样的，运用深度学习中的“蒙特卡洛树搜索”（MCTS）就能评估不同的下棋可能性，并从中选出最优的动作。在这个过程中，AlphaZero 只需要利用“预测网络”这一神经网络。

而 MuZero 不知道现有的规则，那么只能从零开始构建一个内部模型，形成自己对棋局的理解。

首先，MuZero 会利用“表征网络”将自己观察到的棋步收集起来，转化为专属于自己的知识；

接着，利用“预测网络”形成策略（即最好的“下一步”是什么），判断价值（即当前决策“有多好”）；

最后，借助“动态网络”判断“上一步有多好”，回收此前做出的最佳棋步，不断完善自己的内部模型。

也就是说，MuZero 并没有具体的“行事准则”，它就像是一个小孩，在有了一定思考能力的基础上，正在不断完善自己的行事准则。在此之前，“AlphaGo”虽能轻松击败人类，但也只限于围棋等专精领域，却无法“触类旁通”，每遇到新的游戏都需要更改框架，重新学习。而掌握了“思考方式”的 MuZero 显然能做得更多了，也就是，更通用了。

“知道雨伞能让人不被淋湿，比能对雨滴建模更有用。”DeepMind 用这句话表示，对 AI 来说，它们会的本领看起来越笨，越有实际意义。

在游戏方面，以研究 AI 打扑克出名的 FAIR 研究科学家 Noam Brown 这样评价 MuZero：“当前人们对游戏 AI 的主要批评是模型不能对现实世界中相互作用进行准确建模。MuZero 优雅而令人信服地克服了这个问题（适用于完美信息游戏）。我认为，这是可以与 AlphaGo 和 AlphaZero 相提并论的重大突破！”

这个会思考的 AI，能做什么？

DeepMind 研究表示，MuZero 在不具备任何底层动态知识的情况下，通过结合 MCTS 和学得模型，在各种棋类种的精确规划任务中可以匹敌 AlphaZero，甚至超过了提前得知规则的围棋版 AlphaZero。

在实验中，只要为 MuZero 延长每次行为的时间，它的表现就会变得更好。随着将每次行动的时间从十分之一秒增加到 50 秒，MuZero 的能力会增加 1000 Elo（衡量玩家的相对技能），这基本相当于熟练的业余玩家和最强的职业玩家之间的区别。

开始自我思考的 MuZero 就像人一样。现实世界混沌、复杂，人们也没有具体的行事手册，只能摸着石头过河，慢慢形成自己的规划能力，进而制定下一步该怎么做的策略。

那么，MuZero 能做什么？

《连线》记者提到了在生化界做了件“大实事”的蛋白质结构预测 AI，接着问起了 MuZero 的实用价值。David Silver 表示，MuZero 已经投入实际使用，用于寻找一种新的视频编码方式，从而完成视频压缩。考虑到大量不同的视频格式和众多的压缩模式，能节省 5% 的比特已经是极具挑战的任务。“互联网上的数据大部分是视频，那么如果可以更有效地压缩视频，则可以节省大量资金。”由于 Google 拥有世界上最大的视频共享平台 YouTube，因此他们很可能将 MuZero 其应用到该平台上。

David Silver 想得更远，“一个真正强大的系统，它能看到所有你看到的东西，它有和你一样的感官，它能够帮助你实现目标。另外一个变革性的，从长远来看，（MuZero 的『强化学习』思路）是可以提供个性化的医疗解决方案的东西。有一些隐私和伦理问题必须解决，但它会有巨大的价值，它会改变医学的面貌和人们的生活质量。”

目前，“Alpha 家族”这种规划算法也已经在物流、化学合成等诸多现实世界领域中产生影响。然而，这些规划算法都依赖于环境的动态变化，如游戏规则或精确的模拟器，导致它们在机器人学、工业控制、智能助理等领域中的应用受到限制。

而不再“循规蹈矩”的 MuZero，先摸索规则、建立内部模型再精通的思路，显然具有更强的可塑性。会自己思考的 AI，离通用 AI 会更近一些。

“我不想给它设定一个时间尺度，但我想说，人类能实现的一切，我最终认为机器都能实现。大脑完成的只是一个计算过程，我不认为那里有什么神奇的东西。”David Silver 对它的造物有足够的自信。

如果说 AlphaGo 确立了 AI 的“围棋霸权”，那懂得自己思考的 MuZero，可能会在更多领域确立“霸权”。

- THE END -

#AlphaGo

原文链接：极客公园责任编辑：随心

“全能棋王”AlphaZero来了人类会失业但不会灭亡

文郝俊慧谷歌自我超越用的时间越来越短.最近,AlphaGo的研发团队DeepMind在arXiv上传最新论文,宣告"全能棋王"AlphaZero诞生.在不用输入棋谱,仅仅告知规 ...
MuZero：用学习模型规划MuZero玩转雅达利、围棋、国际象棋和日本将棋

Karen Simonyan, 1 ∗ ^{1*} 1∗ Laurent Sifre, 1 , 2 ∗ ^{1,2*} 1,2∗ Simon Schmitt,1 Arthur Guez, 1 ∗ ^{ ...
超越AlphaZero！DeepMind让AI制霸「元宇宙」，玩转70万独立游戏

来源:deepmind 编辑:yaxin [新智元导读]五年前,AlphaGo打败李世石那一刻,全世界为之惊呼!直到AlphaZero面世,象棋.将棋一战而胜.现在,DeepMind 为AI打造了一个 ...
DeepMind全能AI：完全自学规则，攻破多款游戏，表现碾压人类！

DeepMind用同一个算法,攻克了国际象棋.将棋.围棋和雅达利游戏.动图来源:DeepMind 开发出人工通用智能,一直是人工智能研究的一大目标.此前的许多算法虽能精通诸如围棋.象棋等游戏,却无法& ...
Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？

[编者按]2015 年 AlphaGo 出道一年,就战胜法国二段职业棋手樊麾,2016 年 3 月以 4:1 战胜韩国国手李世石九段,3 月 14 日,韩国棋院表示 AlphaGo 实力不逊于李世石九 ...
通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏

DeepMind推升级版MuZero,玩围棋.国际象棋.日本将棋.Atari游戏都很擅长. 编译 | 子佩编辑 | Panken 智东西12月24日消息,继AlphaGo扬名海外后,DeepMi ...
网易游戏520：将发布数十款重磅游戏，或进一步拉升精品化门槛

文/游戏陀螺 boq 导语:大厂的发布会,对很多厂商而言,往往是对未来手游走向的一个判断,而网易的发布会,还可能是市场走向的风向标. 离今年网易游戏520发布会距离一周的时间,备受业界关注的网易游戏5 ...
【艾可机器人·专题聚焦】“科技战“疫”：数十款移动机器人活跃一线

文/新战略机器人全媒体疫情期间,活跃在一线的除了医生.护士.警察.志愿者等各行业人士之外,还有移动机器人,在医疗配送.消毒及送餐等环节中,机器人发挥自身优势,有效的减轻了医务人员的压力以及避免了交叉感 ...
4月海外游戏直播排行一图流看懂潜力最大的十款游戏

国外视频网站Gamoloco统计了4月份各类游戏的直播时长,根据这份统计我们了解了最近全球市场上哪些游戏目前正处于热门状态,在与国内游戏市场的新游发展走向进行双向对比,就能得出哪些游戏在国内能够具有很 ...
在海口这家店狂吃数十款雪糕后，我推荐这些……

今年的小岛夏日似乎比往常更早来到,阳光海浪是标配,各色冰饮可是夏季顶配. 不吃冰,是对夏天的失礼. 今晚,推荐一家无意间发现的冰淇淋集合店,店内的冰淇淋竟有100多种,这种宝藏岂有放着不挖的道 ...
Steam平台好评如潮的十款游戏，最后一款被公认

steam目前作为最大的游戏平台加社区,上面集结了海量玩家,并且都是来自于世界各地,作为目前最大的游戏平台,里面也有好多游戏作品,那么本期我们就盘点一下,在steam平台十大受到好评如潮的游戏,最后一 ...
5G消息可替代APP 已有中兴等数十款终端支持

记者武晓莉仅需打开手机短信,就能看到文字.图片.视频等不同形式的新闻.这种新颖的方式在2021年全国两会报道上实现了.在"十四五"新的历史起点上,新技术赋能新体验.两会报道也有 ...
优化好就是香，这十款游戏不但耐玩，对电脑的配置也很友好

一部好玩的单机游戏,但优化不完善,即使配置再高的电脑,也发挥不出全部的效果,这让很多玩家引起反感,那么本期就为广大游戏爱好者们,推荐十款优化非常完善的单机游戏,而且这些作品,对电脑的配置要求不高,可以 ...
价值千元，数十款免费数据恢复软件无偿分享（含数据恢复原理解释）

数据丢失以后,大抵心情都是慌的我数据丢失我也慌! 今天先说数据恢复的方法,顺便讲讲原理 ▍1 数据丢失该如何处理? 慌张的时候容易病急乱投医,不过好在,和人生病不同,硬盘如果没有物理损伤,关掉电源拔 ...
联合利华重新定义旗下经典冰淇淋，数十款新品齐上市，这个夏天又有口福啦

今年夏天联合利华公司即将推出一系列创新产品,分属其经典的5个品牌,包括Magnum Ice Cream(梦龙), Popsicle, Breyers, Klondike 以及Good Humor(甜蜜 ...

下一代AlphaGo问世：数十款游戏全面碾压 裸考也能拿满分

相关推荐

下一代AlphaGo问世：数十款游戏全面碾压裸考也能拿满分