陈根:强化学习,如何增强机器人的鲁棒性?
文/陈根
双足机器人曾是科幻文学和电影的主题。在非理想地形上,早期双足机器人的形象通常是移动缓慢且笨拙的。但是随着科技的发展,它们开始能够进行更快、更有效地移动。现在,有些双足机器人已经可以适应环境和外部刺激。
虽然双足机器人发展迅速,但是其在建模以及稳定性方面依然有很大的进步空间。为此,研究人员尝试通过强化学习来训练双足机器人并获得了成功,这在很大程度地增强了机器人的鲁棒性。
事实上,在传统机器人研究中,往往需要花费很多时间和技巧给机器人建模,尤其对于双足机器人而言,一旦自身性质和周围环境发生改变,如电机坏了、地面摩擦力改变,模型就有可能就会失效。
此外,对于双足式的机器人系统而言,其非线性非常高,并且由于是高自由度的混合系统,每一次踏步都会受到地面冲击力,因此,很难获得精确模型。
要想做一个实时控制算法,就要使用相对完整的动力学模型。但是,即便具备好的模型,部署在非常高自由度的非线性系统上,也很难做到较快的实时计算。因此,使用传统方法时,很多学者都会做出权衡取舍,比如使用简化的模型来做算法控制。
然而,这样做的弊端也很明显:一方面,其无法完整利用动力学模型,从而不能充分发挥机器人系统的灵敏性;另一方面,基于模型的算法,一旦超过其稳定区域,算法很容易就会崩溃。所以,使用传统方法制造出来的机器人在稳定性方面往往有所欠缺。
针对于此,研究人员用强化学习的方法来训练机器人,通过相对完整的机器人动力系统,在仿真环境反复尝试后,机器人获得大量和环境交互的数据,从而学会用稳定步态行走。
研究人员主要使用Python对机器人进行编程,由于是双足机器人,算法控制上会更难。但用强化学习的方法训练,研究出的机器人步态算法相比传统基于模型的算法,性能显著提升,带来的鲁棒性也更强。
该机器人不仅能像人类一样前后左右地走,还能蹲着走,也能承受意料之外的负载,更能从强行推动造成的失稳状态中恢复过来。在测试期间,其右腿的两个电机损坏了,但它仍能调整其步行策略去适应。
鲁棒性增强,这也意味着,相比其他机器人,该机器人拥有更大的应用空间。未来,在发生地震时,其有望能在塌房中做救援工作;或者在快递业务中,可以充当快递员的角色。
目前,相关论文《双足机器人鲁棒参数化运动控制的强化学习》(Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots),已被机器人国际学术顶会 ICRA 收录,将有望促进双足机器人的进一步发展。