谷歌AI机器手在多对象操控上取得新进展!可熟练旋转多个小球
对于人类来说,同时使用几根手指抓握和操纵对象似乎根本不是什么问题,但是对于机器人来说这却艰难得多。这是因为像用铅笔在纸上书写这样的任务需要物理模型来指导将力施加到目标对象上,而且还需反复接触和断开接触,对于一般的解决手部操作问题的常规方法,通常难以精确地生成这样的模型。这也就是为什么Google Brain的研究人员追求一种涉及深度动力学模型(DDM)的新型机器人任务计划的原因。
他们近日在Arxiv.org上发布的论文“用于学习敏捷操作的深度动力学模型”中对此进行了描述,机械手仅用四个小时的实际数据就可以操作多个对象。
图|经过2.7小时的实验,机器手已经可以熟练控制两个球的旋转(图片来源:Google)
该模型建立在AI研究的丰富基础上,它致力于研究机器人手部操纵的问题,并借鉴了很多先前模型的经验,这其中包括腾讯最近的一项研究,该研究调查了魔方的立方体求解器。另外,OpenAI研究人员于去年7月详细介绍了一种系统,该系统能够以最先进的精度指导手抓握和操纵对象。
去年9月,麻省理工学院CSAIL小组提出了一种名为“密集物体网”的计算机视觉系统,该系统使机器人能够检查,视觉理解和操纵他们从未见过的物体。就其本身而言,谷歌今年初与哥伦比亚普林斯顿大学和麻省理工学院的研究人员合作,开发了一种被称为TossBot的捡拾机器人。它学会在其“自然范围”范围之外抓取物体并将其扔进盒子。
无需模型的机器学习方法可以学习在复杂的机器人操纵任务上达到良好性能的策略。但是当需要高度灵活性时,这些最先进的算法就会遇到困难。复杂的联系动态而导致任务失败的可能性很大。无模型方法还需要大量数据,因此很难在现实世界中使用。在这项工作中,研究人员旨在突破这种任务复杂性的界限。为此,团队将他们的方法描述为“不确定性”的AI模型与最新的轨迹优化相结合。
强化学习有助于教导系统细微的手和对象交互。计算每个动作是跨多个机器学习模型的平均预测奖励,该模型用于优化候选动作序列。手只执行第一个动作,然后接收更新的状态信息并在接下来的步骤中重新计划。研究人员为系统分配了解决一些实际操作难题的任务,所有这些难题都需要与对象接触并将其最终定位到目标位置。最困难的一项是将两个保定球绕着手掌旋转而不会掉落,但研究人员的模型设法仅使用100,000个数据点(2.7小时)的数据来解决该问题。
在一项独立的实验中,该团队重新调整了在保定球任务中训练的模型的用途,而无需进行额外的培训即可完成其他任务,包括将单个球移动到机械手的目标位置,并执行顺时针旋转而不是学习逆时针旋转。(有问题的手是“影子手”,它的手腕带有两个已激活的关节,外加中指和无名指,每个中指和无名指都有三个已激活的关节和一个未激活的关节,还有一个小手指和拇指,有五个已激活的关节。)它成功地将两个球旋转了90度和180度,而没有将它们从相机捕获的两个小时的真实数据中掉落,成功率分别约为100%和54%。在研究其系统灵活性的后续测试中,该团队在模拟环境中进行了手写实验。他们说,该方法将建模与特定任务的控制分离,从而可以进行跨行为泛化,而不是发现并记住特定任务或动作的答案。
该论文的合著者表示,基于深度模型强化学习的方法打破了通用机器学习社区的观念,即模型难以学习且尚未提供像无模型方法一样令人惊喜的控制结果。在我们的灵巧操作任务模拟套件中,在学习速度和最终性能方面,它始终优于这些先前方法,而本文首次证明了这一点。深层神经网络模型确实可以利用高维操纵器,包括高效地利用样本,自动发现精细的运动技能,其中包括只用几小时的真实数据训练的真实灵巧手。研究人员打算尽快将代码开源。
(参考:https://venturebeat.com/2019/09/27/google-robotic-hand-ai-can-rotate-baoding-balls-with-under-4-hours-of-training-data/)