综述 | 模仿学习ImitationLearning
转载于 :专知
模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识,以复制他们的行为。它已经成功在视频游戏、自动驾驶、机器人模拟和物体操纵等领域得到了证明。然而,这种复制过程可能会有问题,比如性能高度依赖于演示质量,并且大多数经过训练的代理在特定于任务的环境中只能表现良好。在本研究中,我们对模仿学习进行了系统的回顾。我们首先介绍了模仿学习的发展历史和初步的背景知识,然后介绍了模仿学习的不同分类和该领域的关键里程碑。然后,我们详细介绍学习策略中的挑战,并通过次优演示、语音指令和其他相关优化方案提供学习策略的研究机会。
https://www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654
引言
模仿学习(IL),也被称为示范学习,通过模仿行为以一种相对简单的方法作出反应。它提取有用的知识来重现环境中的行为,类似于演示。人工智能的存在促进了自主控制系统的研究和人工智能代理的设计,因为它在现实场景中展示了良好的前景和训练策略的效率。深度学习、在线学习、生成对抗网络[23]等机器学习领域的最新发展使IL得到了进一步的改进,不仅缓解了现有的动态环境、频繁查询、高维计算等问题,而且实现了更快的收敛。更鲁棒的噪声和更有效的样本学习过程。这些改进促进了连续和离散控制领域的应用。例如,在连续控制领域,模仿学习可以应用于自动驾驶汽车操纵,在动态环境中重现适当的驾驶行为[11,13,14,22,31,52,53,80]。此外,模仿学习也应用于机器人,从基本的抓取和放置到手术辅助[21,37,43,46,48,49,67,79]。在离散控制领域,模仿学习对博弈论[5,19,24,55]、导航任务[28,62,76]、缓存管理[38]等领域做出了贡献。
本研究在行为克隆vs.逆强化学习和无模型vs.基于模型三个类别下进行了模仿学习的研究。然后将IL研究归纳为两个新的类别,即低级任务与高级任务,BC、IRL与对抗性结构化IL,更适应IL的发展。
第2部分全面描述了IL的演变,第3部分介绍了基本知识,第5部分介绍了最常见的学习框架。
该综述提出了IL的剩余挑战,如学习不同的行为,利用各种演示和更好的表现。然后从迁移学习和重要抽样等方面探讨了未来的研究方向。
模仿学习在许多问题上都取得了优异的表现,从解决困难的探索Atari游戏到实现物体操纵,同时通过机械手臂避免障碍物。不同种类的模仿学习方法对这一重大发展做出了贡献,如BC方法更直观地复制行为,环境参数可以很容易地获得;当问题更多地关注环境动态而不太关心训练时间时,IRL方法实现了数据效率和未来行为预测;对抗性结构IL方法消除了训练过程中的专家交互,并提供了足够的能力处理高维问题。虽然IL方法继续成长和发展,IL也在寻求突破的设置。尽管最近的研究在复制行为方面表现出了优越的优势,但由于GAIL及其衍生产品的出现打破了以往的分类框架,分类歧义也存在着。为了减轻这种歧义,我们分析了IL的传统分类法,并提出了新的分类法,使方法之间的边界更清晰。尽管IL取得了成功,但也存在挑战和机遇,如多样化的行为学习、利用次优演示和语音指导、更好的表现,以及最终找到全局最优解决方案。未来的工作有望阐明IL及其实际应用。
---------♥---------