几条腿都能走!迪士尼另辟蹊径,将深度学习直接用于实体机器人
前言
通常我们所见的深度学习都是在模拟环境中实现的,而迪士尼研究院的科学家们最近将深度学习应用到了实体机器人上,并创建了一个自动学习环境,可以直接将控制策略应用到实体机器人上。
说的就是上面这个机器人,是一个模块化有腿的机器人,是不是有点像蜘蛛~
有一种生物叫长脚蜘蛛,当它们遇到敌人时,会自动伸出脚,过一段时间后又会恢复行走速度和转向控制。其实在自然界中,很多生物都能根据环境做出适应性动作,即使不会自动变化,很多生物也会在改变身体结构之后调整动作姿态,这都是长期学习适应的结果。
而今天这个实验就是研究人员将生物的这种学习运动的技巧应用到了这个机器人身上~
1
实验概述
迪士尼研究院的研究者们提出了一种自动学习环境,直接在模块化有腿机器人上建立控制策略。这一环境通过计算奖励促进了强化学习过程,计算过程是利用基于视觉的追踪系统和将机器人重新放回原位的重置系统进行的。
实验人员应用了两种先进的深度学习算法——Trust Region Policy Optimization(TRPO)和Deep Deterministic Policy Gradient(DDPG),这两种算法可以训练神经网络做简单的前进和爬行动作。利用搭建好的环境,上述两种算法都能在高度随机的硬件和环境条件下有效学习简单的运动策略。实验人员将这种学习迁移到了模块化有腿机器人上。
2
实验装置
实验所用机器人:
这个机器人是可以灵活拆卸的,中间的本体呈六边形,每一面都可以利用磁铁吸附上一条“机械腿”,不过在本实验中最多用到了三条腿。这三条腿分别可以实现不同的前进方向。
A腿运动方向:横轴+纵轴。
☟
B腿运动方向:竖轴+纵轴。
☟
C腿运动方向:横轴+竖轴+纵轴。
☟
那么问题来了,如果按最多能装六条腿来算,一共可以拼出多少种不同的机器人呢?
A、B、C三种腿型的结果如图:
☟
可以看出,TRPO和DDPG两种算法都能成功地在硬件上进行训练,同时表现得要比其他手动设计的步态好。
实验环境布局:
环境主要由两部分组成:视觉追踪系统和重置装置。视觉系统用到了摄像头,它追踪的是机器人身上的绿色和红色两个点,从而重现全局的位置并为机器人导航。
重置装置是用来让机器人复位的。实验人员用只有一个自由度的杠杆结构就可以将机器人拉回到初始位置。两个1.5m长的线分别连接机器人本体上的两点。
环境布局好后,研究人员将控制问题用部分可观察马尔科夫决策过程(POMDP)表示,它可以用无法观察到的状态变量来解释决策问题。具体的数学公式大家可以参考原论文。
3
算法的学习
模型的策略用一个神经网络表示,该网络由两个完全连接的隐藏层组成,每层有16个活动神经元。研究人员设想当在单腿机器人上训练好策略,他们也许就能将所学到的知识转移到多腿机器人上。假设所有的腿都有同样的接头形状,那么就可以通过复制输出神经元和对应的链接进行多腿运动。
实验结果:
不看视频或想看详细解析的朋友请看下边内容~
在本实验中,研究人员主要研究了两个问题:
目前最先进的深度强化学习算法能否直接在硬件上训练策略?
我们能否通过迁移策略将学习转化到复杂场景中?
首先是一条腿训练
图中下面那条腿是用TRPO学习完毕的A腿,与上面的A腿相比,前进姿势有所不同,速度也快了一点点。
两条腿训练
下图是两条在Trust Region Policy Optimization(TRPO)深度学习算法下的B腿,爬着前进。
下图是两条在Deep Deterministic Policy Gradient(DDPG)深度学习算法下的B腿,好像是要向前翻还没翻过去。
下图为B腿关于两种算法在迁移学习和无迁移下的表现,结果符合预期,迁移学习能作为一个很好地初始解决方案。
三条腿训练
看起来有蜘蛛的雏形了,扑腾着向前爬,有了TRPO和DDPG两种算法的加持,好像要挣脱束缚,欢快前行了~
结果显示中间的那条腿作用并不大。
4
结语
由于传感器能力有限,实验人员在仅对简单的开环爬行运动进行了测试。如果有更复杂的控制器和奖励,预计会得到更为复杂的行为。例如,可以用基于IMU的反馈控制器训练机器人走路或跑步;可以用深度相机收集机器人的高度,当它们从爬行转变成走路时给予奖励。
另外,虽然研究者展示了迁移学习在初始策略上的重要作用,但都是应用在相同种类的腿上,动作也都类似。未来,他们计划将动作分解成不同难度水平,应用于不同任务上。
追踪系统也会出现bug,当机器人挡住标记时会对其位置进行误判。虽然这不会对本实验的机器人造成损坏,但是对于体型庞大的机器人却很危险。所以,想在硬件系统上进行直接学习或许也需要传统算法的帮助,保证机器人的安全。
论文地址:
https://s3-us-west-1.amazonaws.com/disneyresearch/wp-content/uploads/20180625141830/Automated-Deep-Reinforcement-Learning-Environment-for-Hardware-of-a-Modular-Legged-Robot-Paper.pdf