综述 | 模仿学习ImitationLearning / 开普饭

转载于：专知

模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识，以复制他们的行为。它已经成功在视频游戏、自动驾驶、机器人模拟和物体操纵等领域得到了证明。然而，这种复制过程可能会有问题，比如性能高度依赖于演示质量，并且大多数经过训练的代理在特定于任务的环境中只能表现良好。在本研究中，我们对模仿学习进行了系统的回顾。我们首先介绍了模仿学习的发展历史和初步的背景知识，然后介绍了模仿学习的不同分类和该领域的关键里程碑。然后，我们详细介绍学习策略中的挑战，并通过次优演示、语音指令和其他相关优化方案提供学习策略的研究机会。

https://www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654

引言

模仿学习(IL)，也被称为示范学习，通过模仿行为以一种相对简单的方法作出反应。它提取有用的知识来重现环境中的行为，类似于演示。人工智能的存在促进了自主控制系统的研究和人工智能代理的设计，因为它在现实场景中展示了良好的前景和训练策略的效率。深度学习、在线学习、生成对抗网络[23]等机器学习领域的最新发展使IL得到了进一步的改进，不仅缓解了现有的动态环境、频繁查询、高维计算等问题，而且实现了更快的收敛。更鲁棒的噪声和更有效的样本学习过程。这些改进促进了连续和离散控制领域的应用。例如，在连续控制领域，模仿学习可以应用于自动驾驶汽车操纵，在动态环境中重现适当的驾驶行为[11,13,14,22,31,52,53,80]。此外，模仿学习也应用于机器人，从基本的抓取和放置到手术辅助[21,37,43,46,48,49,67,79]。在离散控制领域，模仿学习对博弈论[5,19,24,55]、导航任务[28,62,76]、缓存管理[38]等领域做出了贡献。

值得注意的是，可以从人类专家或人工代理那里收集演示。在大多数情况下，演示是从人类专家那里收集的，但也有一些研究通过另一个人工代理获得演示。例如，Chen等人[13]提出了一个师生训练结构，他们用额外的信息训练一个教师代理，并使用这个经过训练的代理来教导一个没有额外信息的学生代理。这个过程不是多余的，使用来自其他代理的演示有助于训练过程，因为学生代理可以通过经常查询训练过的代理来推出自己的策略，并从类似的配置中学习策略，而经典IL需要克服运动学转移问题。

IL与强化学习(RL)有着密切的关系。IL和RL通常都解决了马尔科夫决策过程下的问题，RL中的TRPO[60]等改进也可以使IL受益，但它们以不同的方式再现了行为。与RL相比，IL更高效、更易访问和人机交互。在效率方面，与尝试和错误相比，IL代理通常花费更少的时间来通过使用演示作为指导产生所需的行为。就可访问性而言，在RL方法中实现自主行为需要熟悉问题设置的人类专家，以及硬编码的奖励功能，这些功能在某些情况下可能是不切实际的和非直觉的。例如，人们几乎是通过演示而不是数学函数来学习游泳和走路的，而且很难用数学来表述这些行为。IL还促进跨学科的集成，编程新手专家可以为设计和评估范例做出贡献。在人机交互方面，IL通过提供演示或偏好来加速学习过程，突出了人类的影响力，有效地利用和转移专家的知识。尽管IL具有上述优点，但它也面临着挑战和机遇，这一内容将在下面的章节中详细介绍。

本研究在行为克隆vs.逆强化学习和无模型vs.基于模型三个类别下进行了模仿学习的研究。然后将IL研究归纳为两个新的类别，即低级任务与高级任务，BC、IRL与对抗性结构化IL，更适应IL的发展。
第2部分全面描述了IL的演变，第3部分介绍了基本知识，第5部分介绍了最常见的学习框架。
该综述提出了IL的剩余挑战，如学习不同的行为，利用各种演示和更好的表现。然后从迁移学习和重要抽样等方面探讨了未来的研究方向。

模仿学习在许多问题上都取得了优异的表现，从解决困难的探索Atari游戏到实现物体操纵，同时通过机械手臂避免障碍物。不同种类的模仿学习方法对这一重大发展做出了贡献，如BC方法更直观地复制行为，环境参数可以很容易地获得;当问题更多地关注环境动态而不太关心训练时间时，IRL方法实现了数据效率和未来行为预测;对抗性结构IL方法消除了训练过程中的专家交互，并提供了足够的能力处理高维问题。虽然IL方法继续成长和发展，IL也在寻求突破的设置。尽管最近的研究在复制行为方面表现出了优越的优势，但由于GAIL及其衍生产品的出现打破了以往的分类框架，分类歧义也存在着。为了减轻这种歧义，我们分析了IL的传统分类法，并提出了新的分类法，使方法之间的边界更清晰。尽管IL取得了成功，但也存在挑战和机遇，如多样化的行为学习、利用次优演示和语音指导、更好的表现，以及最终找到全局最优解决方案。未来的工作有望阐明IL及其实际应用。

---------♥---------

综述 | 模仿学习ImitationLearning

相关推荐