跨石滩、过草地、负重12kg，UC伯克利等研发新型机器人运动算法，实时快速适应变化环境

2024-06-05 18:54:07

第一时间获取价值内容

来自：机器之心

UC 伯克利、CMU 和 FAIR 推出的快速运动适应（RMA）算法，可以使四足机器人实时、在线地适应未见过的地形环境，性能表现显著优于其他腿式机器人。

说到腿式机器人，机器之心以前介绍过不少，如能跑、能跳、能跳绳、跨越障碍的 Spot 机器狗，不用摄像头和激光雷达凭感觉「越野」的 ANYmal 机器人、会翻跟斗的 MIT 机器人，等等。

这些腿式机器人都有一定的适应外部环境的能力，但还不够。腿式机器人在现实世界的成功部署需要其实时适应未见过和不断变化的场景，如多样化的地形、不同重量的负载以及不同程度的磨损。

近日，来自 UC 伯克利、CMU 和 FAIR 的研究者们在腿式机器人实时、智能适应具有挑战性、陌生的地形和环境方面取得了重大突破，推出了一种快速运动适应（Rapid Motor Adaptation, RMA）算法。该算法包含两个子策略，其一是使用强化学习训练的基本策略（base policy）和使用监督学习训练的适应模块（adaptation module），二者完全在模拟中学习。在 RMA 算法加持下，四足机器人拥有了所有智能体共有的适应环境因素的能力。

论文地址：https://ashish-kmr.github.io/rma-legged-robots/rma-locomotion-final.pdf
项目主页：https://ashish-kmr.github.io/rma-legged-robots/

以往的四足机器人要么已经针对它们所要适应的环境进行了完全手动编码，要么通过手动编码和学习技巧的结合来教它们在环境中导航。与这些不同，RMA 是首个完全基于学习的系统，通过探索并与世界进行交互，使腿式机器人能够从头开始适应环境。

具体来讲，RMA 在不使用任何领域知识（如基准轨迹或预定义的足轨迹生成器）的情况下完全在模拟中训练，并且无需任何微调即可以部署在 Unitree 的 A1 机器人上。

研究者在各种地形生成器上训练 RMA，包括乱石滩、泥地、不平整草地、混凝土地、鹅卵石地、石阶和沙滩等。结果表明，RMA 在不同的现实环境和模拟实验中都实现了优于其他腿式机器人的性能。

优哉游哉穿过乱石滩：

走过高低不平的草地：

在泼了油的塑料板上也不打滑：

此外，RMA 中的适应模块至关重要。测试表明，有适应模块的四足机器人可以负载 8 千克的重量，无适应模块的则负载不了这个重量。

无适应模块的四足机器人也无法在海绵板上行走：

RMA 赋能的四足机器人不仅可以负载不同重量，而且必须能够适应预期的磨损以及现实世界可能出现的其他不可预测的变化。得益于自身能力完全基于遭遇的环境，RMA 赋能的四足机器人还可以适应程序员未曾考虑到的情况。

对于这款能够适应复杂多变环境的四足机器人，网友表示：「我满脑子想到的都是电视剧《黑镜》里面的机器狗……」

机器人是如何做到的？

手动编码的改进可以提高机器人在受控环境中的性能，但是想要机器人真正的适合现实世界中的变化，唯一的方法是教机器人真正的适应环境，类似于人类的学习方式。

想要赋予机器人适应不断变化世界的能力，研究者需要通过数百万次重复实验来教他们，而做到这一点的最佳方法不是在现实世界中，在现实世界中机器人可能会在学习过程中损坏或磨损，研究者是在模拟环境中进行的。

RMA 全程使用端到端学习，甚至直接输出关节位置，而不依赖预定义的腿部运动或其他控制原语。

然而，这些机器人在模拟环境中学习技能，当部署到现实环境中会出现很多挑战。在模拟环境中，机器人的物理结构和模型往往在微小但重要的方面有所不同。例如，在发送控制信号和执行器移动之间可能有轻微的延迟，或者脚上的磨损使它比以前更滑，或者关节的角度可能偏差了百分之一度。

物理世界本身也呈现出一些复杂的情况，以自由空间中移动的刚体为模型的模拟器无法准确捕捉到这些复杂情况。床垫或泥坑等表面接触后会变形。在模拟中相当标准化的环境在现实世界中变得更加多样化和复杂，如果考虑到室内和室外空间中可能存在的大量地形，情况就更加复杂了。当然，现实世界中的因素从来都不是静态的，所以腿式机器人能够掌握的现实世界环境可能与大不相同。

在真实世界中进行模拟和部署训练

RMA 通过使用两个不同的子系统克服了这些挑战：基本策略和适应模块。

基本策略是在 RL 模拟中学习的，使用不同环境的信息（例如摩擦量以及有效载荷的重量和形状）。研究者设置了不同的变量——模拟更滑或少滑的地面或斜坡的坡度——因此机器人可以学习在不同条件下的正确控制，研究者将关于这些变量的信息编码为「extrinsics」。

环境参数范围。

当然，不能仅仅用这个基本策略来部署机器人，因为我们不知道它在现实世界中会遇到什么外部特性。因此，研究者依赖于机器人在周围环境中自己学到的信息，即机器人最近的运动信息。我们知道关节的实际运动和来自命令的预期运动之间的差异依赖于这些外部特性。例如，突然的腿部障碍物会使机器人停止，但同时也会显示其周围地面高度的信息。同样，在柔软的表面上，机器人腿会随着脚下沉而伸展得更远，而在坚硬的表面上，机器人会快速的停止。

由于我们知道机器人在模拟中遇到的实际外部特性，我们可以使用监督学习训练自适应模块，从机器人最近的历史状态预测当前行为。

适应新条件，几乎是瞬间完成

通过基本策略和适应模块的这种组合，机器人可以在几分之一秒内适应新的条件。

相比较而言，先前基于 RL 的方法训练的机器人需要几分钟时间，有时还需要人工干预才能适应新条件，使得这些机器人在现实世界中不现实。

当部署支持 RMA 的机器人时，基本策略和适应模块协同异步工作（基本策略以更快的速度运行，适应模块以更慢的速度运行），以使机器人能够在没有任何微调的情况下执行鲁棒和自适应的移动。异步运行两种策略并以本质上不同的频率运行还有助于使用小型机载计算部署 RMA。小的基本策略可以保持机器人以高频行走，而较大的适应模块可以以低频发送外部向量。异步运行这两个策略还为有些不可预测的硬件速度和时间增加了鲁棒性。

实验表明，RMA 支持的机器人成功地在几个具有挑战性的环境中行走，表现优于 non-RMA 部署的机器人，与 Unitree 机器人相媲美，甚至是优于 Unitree 机器人。研究者使用相同的策略执行所有现实世界的部署，而不需要任何模拟校准或现实世界的微调。

在所有的试验中，这个机器人能够在沙子上、泥土里、徒步小径上、高草丛和土堆上行走，没有一次失败。在 70% 的试验中，这个机器人成功地沿着一条徒步路线走下台阶。在 80% 的试验中，它成功地通过了一堆水泥和一堆鹅卵石，尽管在训练中从未见过这种不稳定或下沉的地面、阻塞的植被或台阶。当它以 12 公斤的有效载荷（相当于其体重的 100%）移动时，它也能以很高的成功率保持高度。

RMA 是机器人技术一项激动人心的进步，它可以在现实世界中部署新型、高效且适应性强的步行机器人。这项工作还表明，人工智能的进步可以改变机器人领域，增强机器人的能力，同时使这些改进更易于扩展到新的条件和应用。纯粹依靠学习的方法有可能在更便宜、不准确的硬件环境下工作，这将大大降低未来机器人的成本。效率的提高和成本的降低可能意味着 RMA 支持的机器人将来可以发挥多种作用，比如在搜索和救援行动中充当助手，特别是在那些对人类来说太危险或不切实际的地区。

除了机器人技术之外，RMA 还指出了构建 AI 系统的方法，该系统可以通过利用动态数据来了解特定算法运行的上下文，从而实时适应许多困难的挑战。

参考链接：https://ai.facebook.com/blog/ai-now-enables-robots-to-adapt-rapidly-to-changing-real-world-conditions/

-结束-

👆 长按识别，即可关注

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型,由算法提供数据分析反馈,引导用户逐步获取最佳结果. 来源丨Towards Data Science 作者丨Jair Ribeiro 编译丨科技行者强化学习属于机器学习中的 ...
强化学习在应用中寻找策略“最优解”

强化学习正由实验室环境一步步走向真正具备现实影响力的应用场景. 来源丨VentureBeat 编译丨科技行者强化学习(RL)是一种强大的人工智能技术,能够掌握复杂的策略以控制各类大规模复杂系统,包括 ...
基于四足履带机器人的危险环境检测系统的设计

2017第十二届中国电工装备创新与发展论坛中国电工技术学会主办,2017年8月19-21日在北京铁道大厦举办,本届大会主题为"能源大变革时代--电工装备行业创新与发展之路".浏览 ...
腾讯新成员：机器狗Max！

今天,腾讯正式发布首个软硬件全自研的多模态四足机器人. 就是他,机器狗Max(机器狗就是外观像狗的机器人 ) (来给大家扭一个~) 接下来,给大家好好介绍这款"狗". 了解狗狗最重 ...
厉害了！哈佛这款47mg的吸附机构让微型机器人飞檐走壁，如履平地！

导读许多昆虫在倾斜或者是翻转的表面上有着令人称奇的行走能力,然而这对于昆虫大小的腿足机器人而言仍然是很大挑战.假如在足端设计吸附部件,在行走过程中反复的抬腿落腿会带来很多问题,包括步态不稳定以及吸附 ...
腾讯又研发出来一只机器狗，结构很变态啊

小编的话:上个月,腾讯正式发布首个软硬件全自研的多模态四足机器人Max,其采用创新性的足轮融合一体式设计,有腿又有轮,不仅拥有"崎岖路面走得稳,平坦路面跑得快"的特长,还能双腿站立 ...
史上首个功能齐全的形态自适应机器人问世！与AI完美结合，可根据地形自动变化形态

四足机器人由于其运动稳定性在人们日常生活中的应用越来越广泛,但是由于相关硬件和软件的制约,现有的机器人只能被束缚在一个固定的形态下工作,这种固定的形态使现有机器人不利于在复杂的环境中使用. 形态自适应 ...
UC伯克利等新算法让四足机器人“稳得一批”：跨石滩、过草地…泼了油也不打滑！

人类具有适应环境变化的强大能力:我们可以迅速地学会住着拐杖走路.也可以在捡起位置物品时迅速地调整自己的力量输出,甚至小朋友在不同地面上行走都能轻松自如地切换自己的步态和行走模式.这样的适应能力对于在复 ...
通过奖励随机化发现多智能体游戏中多样性策略行为，清华、UC伯克利等研究者提出全新算法RPG

机器之心专栏机器之心编辑部在这篇论文中,研究者提出了一个在 reward-space 进行探索的新算法 RPG(Reward-Randomized Policy Gradient),并且在存在多个 ...
NC：中农徐凌/UC伯克利Coleman-Derr-植物与根际微生物在干旱下的互作机制(招博后)

基因组水平的宏基因组学揭示了铁代谢在干旱诱导的根际微生物组动态中的作用 Genome-resolved metagenomics reveals role of iron metabolism in ...
UC伯克利教授Pieter Abbeel开课了：六节课入门「深度强化学习」，讲义免费下载

机器之心报道编辑:蛋酱课程视频时间有点长,但希望你能享受学习的快乐. 将传统强化学习与深度神经网络结合的深度强化学习,一直以来被视为更接近人类思维方式的人工智能方法.深度学习具备强感知能力但缺乏一 ...
UC伯克利黑科技：用语音数据预测说话人手势

昨天CVPR 论文终于提供下载: 重磅!CVPR 2019 论文终于全面开放下载!附百度云链接看到一篇CVPR 2019 论文<Learning Individual Styles of Co ...
UC伯克利让莱卡狗学习动物敏捷运动，更轻松实现转身跳步小跑

众所周知,动物可以灵活敏捷的穿越复杂的环境,甚至人们常说猫是液体. 在机器人技术中,重现这样的敏捷行为一直是较大的挑战.尽管手动设计的控制器已经能够使机器人模拟许多复杂的行为,但是构建这样的控制器不仅 ...
UC伯克利双足机器人Cassie学会顶球表演杂技！目标是探索动态多任务处理

杂技是检验机器人性能的一项重要技能.无视线的机器人学会杂技,类人机器人学会杂技等等,为何每一类机器人的杂技表演都会引爆朋友圈?对人类杂技表演者来说,必须一次性考虑并作出一系列连续的动作,同时还会因为观 ...
UC伯克利研发“果蝇“和”跳虫“!两种仿生昆虫微型机器人达同规模最小

温馨提示尊敬企业朋友: 沈阳是首批产业转型升级示范区.为加强引导优质资源投资创业,搭建政府和企业合作平台.2019年10月15日举办"创新中国行·走进沈阳暨产业转型创新论坛",邀 ...
这平衡力我服了！UC伯克利“大长腿”脚踩漂移板高速行驶、转弯、下楼梯！

导读在双足机器人家族中,有一位机器人最近十分活跃,不断刷新着技能:变着花样行走.学会跑跳和骑平衡车.经过改造代替人送快递--这就是腿长两米,气质这块拿得死死的机器人Cassie.这次它学会了漂移! ...

跨石滩、过草地、负重12kg，UC伯克利等研发新型机器人运动算法，实时快速适应变化环境

相关推荐