【第五期】20篇强化学习论文总结（附下载链接） / 开普饭

前段时间，我们为大家整理了104篇强化学习论文的综述及列表（点击获取）。

为了方便大家学习，我们将会出5期强化学习的论文总结，每期会有20篇左右的论文，在每周一发布，敬请关注。

目前已出了

【第一期】20篇强化学习论文总结（附下载链接）

【第二期】20篇强化学习论文总结（附下载链接）

【第三期】20篇强化学习论文总结（附下载链接）

【第四期】20篇强化学习论文总结（附下载链接）

本期是最后一期，内容如下：

81.Trust Region Policy Optimization

来源：ICML’15

总结:

本文提出了策略优化的TRPO（Trust Region Policy Optimization）算法。TRPO算法有很强的理论基础，可以保证单调收敛性。论文使用了一个surrogate loss function保证可以用较大的步长进行策略优化，之后通过一些近似方法得到实际可行的算法。作者通过robot locomotion和game-playing两个实验证明了算法的有效性和通用性。

下载链接：https://www.aminer.cn/archive/trust-region-policy-optimization/573696ce6e3b12023e5ceb4f

82.Generative Adversarial Imitation Learning

来源：NIPS’16

总结:

本文提出了GAIL（generative adversarial imitation learning），能够从给定的expert demonstrations中直接学习策略，避免复杂的IRL（inverse reinforcement learning）过程。作者通过理论分析发现：IRL is a dual of an occupancy measure matching problem; the induced optimal policy is the primal optimum. 基于以上两个结论，作者将imitation learning和生成对抗网络联系到一起，提出了一个可行的算法。

下载链接：https://www.aminer.cn/archive/generative-adversarial-imitation-learning/57a4e91dac44365e35c98c23

83.Where to Add Actions in Human-in-the-Loop Reinforcement Learning

来源：AAAI’17

总结:

本文提出了ELF（Expected Local Improvement）方法。该算法主要解决Interactive/Human-in-the-loop 强化学习问题中如何让人类专家添加新动作，使算法可以结合人类知识变得更加智能。作者采用最大化局部增益的方法，避免了估计全局增益时的大量计算。该方法0可以多个仿真实验中都可以获得较好的效果。

下载链接：https://www.aminer.cn/archive/where-to-add-actions-in-human-in-the-loop-reinforcement-learning/599c7ef7601a182cd28dd2f3

84. Maximum Entropy Deep Inverse Reinforcement Learning

来源：arXiv

总结:

本文提出了Maximum Entropy Deep IRL方法，使用FCNNs（Fully Convolutional Neural Networks）近似Inverse Reinforcement Learning（IRL）问题中复杂，非线性奖励函数的框架。论文中介绍了FCNNs的结构以及训练算法以及多个benchmark上的效果。

下载链接：https://www.aminer.cn/archive/maximum-entropy-deep-inverse-reinforcement-learning/56d89f2fdabfae2eee577902

85. Cooperative inverse reinforcement learning

来源：NIPS’16

总结:

本文作者将value alignment问题定义为Cooperative inverse reinforcement learning（CIRL）问题。具体来说，CIRL问题包括两个玩家，分别是人类和智能体，人类的奖励函数是已知的，但智能体并不知道，而需要推断出人类使用的奖励函数。问题的目标是最大化人类的奖励。作者证明了CIRL问题可以归纳到POMDP问题，并推导了处理CIRL问题的近似算法。

下载链接：https://www.aminer.cn/archive/cooperative-inverse-reinforcement-learning/57a4e91dac44365e35c98a73

86.Reinforcement Learning from Demonstration through Shaping

来源：IJCAI’15

总结:

本文作者在强化学习中结合了learning from demonstration的想法，使新方法既有强化学习的理论保证和收敛性质，同时有learning from demonstration的高效性。作者提出利用demonstrations进行reward shaping，demonstration可以指导算法的探索策略，帮助算法更有效地利用稀疏的奖励信号。

下载链接：https://www.aminer.cn/archive/reinforcement-learning-from-demonstration-through-shaping/573697096e3b12023e6039c3

87.Hybrid Reward Architecutre for Reinforcement Learning

来源：NIPS’17

总结：

本文提出了Hybrid Reward Architecture（HRA），用于解决高维度值函数的强化学习问题。对于复杂的高维度值函数可以使用低维表示和神经网络近似，但有些情况下值函数难以进行低维近似。作者将奖励函数分解成不同部分，使得每部分可以使用低维表示近似，并使用单独的强化学习算法学习，学到的不同部分再通过聚合函数得到整体的奖励函数。

下载链接：https://www.aminer.cn/archive/hybrid-reward-architecture-for-reinforcement-learning/599c794a601a182cd262d126

88.Deep Reinforcement Learning from Human Preferences

来源：NIPS’17

总结:

本文研究了如何通过人类偏好进行强化学习。针对强化学习中奖励函数难以定义的情况，作者提出可以让人类对算法生成的策略进行比较，通过比较结果学习强化学习中的奖励函数。作者将该方法扩展到深度强化学习模型中以及更复杂的场景中表明方法有很强的可扩展性。

下载链接：https://www.aminer.cn/archive/deep-reinforcement-learning-from-human-preferences/5a260c0c17c44a4ba8a1e04e

89. Optimistic posterior sampling for reinforcement learning: worst-case regret bounds

来源：NIPS’17

总结:

本文提出了基于后验采样的强化学习算法，提高了过去已知的最差regret bound。算法的主要想法是通过后验采样构造Extended MDP，算法的 regret bound文中进行了理论推导。

下载链接：https://www.aminer.cn/archive/optimistic-posterior-sampling-for-reinforcement-learning-worst-case-regret-bounds/5a260c0917c44a4ba8a1df60

90.Distral: Robust Multitask Reinforcement Learning

来源：NIPS’17

总结：

作者提出了Distral（Distill & Transfer Learning）方法用于multitask强化学习。多任务强化学习一般采用共享参数的策略，但不同任务的梯度存在噪音，训练的策略不稳定，并且很容易出现某个子任务占主导的情况。Distral的主要思想是通过共享”distilled policy”的方式来获取不同任务间共享的行为结构。实验表明该方法可以更好地在不同任务间迁移。

下载链接：https://www.aminer.cn/archive/distral-robust-multitask-reinforcement-learning/59ae3be32bbe271c4c71b999

91. Scalable Multitask Policy Gradient Reinforcement Learning

来源：AAAI’17

总结:

本文介绍了一个分布式多任务强化学习的框架。模型分为两部分：一部分是任务间共享的，另一部分是任务相关的参数。该框架中每个工作节点都对应一个多任务强化学习问题，工作节点对分配到的任务独立地优化；对于共享部分，作者提出了general consensus机制作为目标函数中的正则项，使不同任务中的知识可以进行共享。

下载链接：https://www.aminer.cn/archive/scalable-multitask-policy-gradient-reinforcement-learning/599c7ef7601a182cd28dd4f0

92. Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning

来源：ICLR’16

总结：

本文提出了Actor-Mimic方法同于多任务强化学习问题。该方法利用深度强化学习和模型压缩技术从多个任务的训练数据中学习单个策略网络。Actor-Mimic的目标函数包括策略回归和特征回归，从两个方面获取任务间的共享结构。该方法还可以作为多任务学习的预训练过程加速任务的学习过程。

下载链接：https://www.aminer.cn/archive/actor-mimic-deep-multitask-and-transfer-reinforcement-learning/5736960f6e3b12023e522129

93. Transfer Reinforcement Learning with Shared Dynamics

来源：AAAI’17

总结：

本文研究任务间共享动态变化的一类迁移强化学习问题，即不同任务的共享状态转移概率但奖励函数不同。作者提出的方法考虑了不同任务间经验的可重用性，并采取了optimism in the face of uncertainty指导训练时的探索过程。

下载链接：https://www.aminer.cn/archive/transfer-reinforcement-learning-with-shared-dynamics/599c7ef3601a182cd28dc3a3

94. Successor Features for Transfer in Reinforcement Learning

来源：NIPS’17

总结：

本文研究共享动态变化的迁移强化学习问题。作者提出的方法基于两个想法：successor features，通过值函数表示将动态信息和奖励函数进行解耦；generalized policy improvement，基于动态规划中的策略改进运算但考虑了多种策略，可以迁移不同任务的知识。文中解释了如何结合这两个想法进行强化学习。并通过实验验证算法的效果。

下载链接：https://www.aminer.cn/archive/successor-features-for-transfer-in-reinforcement-learning/57a4e91dac44365e35c98807

95.Massively Parallel Methods for Deep Reinforcement Learning

来源：arXiv

总结:

本文介绍了一个针对深度强化学习的架构。架构包含四个主要部分，分别是生成新行为的parallel actors; 从存储的经验中进行训练的parallel learners；用于表示值函数或策略函数的分布式神经网络；以及一个保存经验的分布式存储。作者使用该架构实现了DQN算法并在Atati游戏环境中测试，验证了分布式架构的效率。

下载链接：https://www.aminer.cn/archive/massively-parallel-methods-for-deep-reinforcement-learning/573696136e3b12023e5260c1

96.Deep reinforcement learning with double Q-learning

来源：AAAI’16

总结:

本文研究了DQN在一些情况下对动作值函数高估的问题，并提出了Double DQN方法可以更精确地估计值函数。作者首先分析了DQN存在高估动作值函数的问题并会对模型带来负面影响。作者接下来注意到了Double Q-learning可以在不同的函数近似方法中通用，包括深度神经网络，因此提出了Double DQN方法可以对值函数更好地估计。

下载链接：https://www.aminer.cn/archive/deep-reinforcement-learning-with-double-q-learning/5736960b6e3b12023e51e3ea

97. Human-level control through deep reinforcement learning

来源：Nature

总结：

本文提出了DQN模型，结合了强化学习和深度神经网络两项技术，可以直接使用游戏中的像素信息和游戏得分学习控制策略。该方法利用深度神经网络从环境中提取特征表示状态-动作值函数。作者提出了使用经验回放的学习算法进行end-to-end训练，在Atari游戏中可以取得人类相当的成绩。

下载链接：https://www.aminer.cn/archive/human-level-control-through-deep-reinforcement-learning/55a6bae665ce054aad73115b

98.Multi-step Off-policy Learning Without Importance Sampling Ratios

来源：arXiv

总结:

本文介绍了一个避免importance sampling的多步off-policy学习方法。Importance sampling存在严重的方差，带来算法的不稳定性。作者提出的方法基于Temporal-difference方法，通过改变temporal-difference中action-dependent bootstrapping的数量可以避免使用importance sampling。作者还提出Action-dependent bootstrapping可以用于其他off-policy方法来减少方差。

下载链接：https://www.aminer.cn/archive/multi-step-off-policy-learning-without-importance-sampling-ratios/58d82fc8d649053542fd5ba8

99. Weighted importance sampling for off-policy learning with linear function approximation

来源：NIPS’14

总结:

本文研究了如何在off-policy方法中使用weighted importance sampling。基于importance sampling的估计方法可能会有较高方差，对off-policy方法带来负面影响。作者提出使用weighted importance sampling（WIS）改善高方差的问题。作者介绍了如何用WIS进行线性函数逼近以及相关的理论分析，并将方法扩展到LSTD算法中提出了基于WIS的LSTD算法。

下载链接：https://www.aminer.cn/archive/weighted-importance-sampling-for-off-policy-learning-with-linear-function-approximation/555048f045ce0a409eb72c2c

100.Oﬀ-policy learning based on weighted importance sampling with linear computational complexity

来源：UAI’15

总结:

本文介绍了一个线性复杂度的基于WIS的off-policy算法。之前工作中提出的WIS-LSTD算法复杂度过高，作者介绍了将WIS用于线性复杂度的off-policy方法的关键点以及理论分析，并通过实验说明了使用WIS可以显著提高线性off-policy算法的效果。

下载链接：https://www.aminer.cn/archive/off-policy-learning-based-on-weighted-importance-sampling-with-linear-computational-complexity/573698186e3b12023e6ec2f4

101.Safe and Efficient Off-policy Reinforcement Learning

来源：NIPS’16

总结:

本文将off-policy，return-based强化学习算法表示成统一的形式，并进一步提出了Retrace算法，该算法具有方差小，能够安全高效地利用样本的优点。作者在policy evaluation setting和control setting两种情况下对算法的收敛性进行了分析并通过实验进行了验证。

下载链接：https://www.aminer.cn/archive/safe-and-efficient-off-policy-reinforcement-learning/57a4e91dac44365e35c987ca

102.Universal Value Function Approximators

来源：ICML’15

总结:

本文提出了Universal Value Function Approximators（UVFAs）用于估计强化学习中的状态值函数。UVFA不仅对状态进行泛化，还对目标进行泛化。UVFA的输入包括状态和目标两部分，作者将值函数分解成状态和目标两个embedding向量来达到泛化的作用，并介绍了如何在强化学习算法中更新UVFA。

下载链接：https://www.aminer.cn/archive/universal-value-function-approximators/573696ce6e3b12023e5ce58f

103.Linear feature encoding for reinforcement learning

来源：NIPS’16

总结:

本文基于linear value function approximation提出了一个关于强化学习特征编码的理论用于指导linear value function approximation特征的选择。作者还提出了一个高效的线性特征编码方法，取得了和深度强化学习比肩的效果。

下载链接：https://www.aminer.cn/archive/linear-feature-encoding-for-reinforcement-learning/58d83051d649053542fe9b0c

104.Imagination-Augmented Agents for Deep Reinforcement Learning

来源：NIPS’17

总结:

本文提出了Imagination-Augmented Agents（I2As），结合了model-free和model-based两方面的想法，可以通过学习用已有的环境模型解释预测结果并构建计划。作者通过环境模型让智能体具有想象力，智能体根据当前的观测信息智能体对未来进行预测。作者设计了一个end-to-end的算法，并在MiniPacman和Sokoban两个游戏上超过了model-free算法。

下载链接：https://www.aminer.cn/archive/imagination-augmented-agents-for-deep-reinforcement-learning/59ae3be32bbe271c4c71b9a2

104篇强化学习论文总结已全部完结，您可在后台回复“强化学习”获取104篇强化学习论文列表。

【第五期】20篇强化学习论文总结（附下载链接）

相关推荐