【第四期】20篇强化学习论文总结(附下载链接)
前段时间,我们为大家整理了104篇强化学习论文的综述及列表(点击获取)。
为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,在每周一发布,敬请关注。
目前已出了
本期内容如下:
61.Reinforcement Learning under Model Mismatch
来源:NIPS’17
总结:
本文研究了Model Misspecification情况下的强化学习。Model Misspecification指的是智能体无法获得真实环境,只能对环境进行近似。作者将robust MDPs框架扩展到了模型无关( model-free)的强化学习场景下,提出了解决robust model-free场景的Q-learning,SARSA和TD-learning算法并证明了收敛性。针对大规模的MDPs问题,作者提出了一个函数近似的方法。线性结构情况下,作者证明了该近似方法的收敛性;非线性结构下,作者定义了MSRPBE损失函数并研究了收敛性。
下载链接:https://www.aminer.cn/archive/reinforcement-learning-under-model-mismatch/599c7956601a182cd26323cf
62.Continuous Deep Q-Learning with Model-based Acceleration
来源:ICML’16
总结:
模型无关的强化学习样本复杂度高,限制了在物理系统领域的应用。本文提出了两个提高深度强化学习效率的方法。作者首先提出了适用于连续控制领域的Q-learning算法NAF(normalized advantage function),该算法是传统Q-learning的变种。另外,作者将该算法和学到的模型相结合来加速学习过程。
下载链接:https://www.aminer.cn/archive/continuous-deep-q-learning-with-model-based-acceleration/573696026e3b12023e516372
63.Safe Model-based Reinforcement Learning with Stability Guarantees
来源:NIPS’17
总结:
本文提出了一个考虑动作安全性的强化学习算法,可以在连续的状态-动作空间安全地优化策略。作者使用Lyapunov方程对探索空间进行限制,让算法大概率地探索到稳定的策略,可以提高控制策略的效果。作者还使用高斯过程先验进一步提高算法效果。
下载链接:https://www.aminer.cn/archive/safe-model-based-reinforcement-learning-with-stability-guarantees/599c797f601a182cd264454b
64. Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning
来源:ICRA’18
总结:
本文提出了一种新的model-based的强化学习学法,并可以用于初始化model-free的算法。作者提出的model-based算法使用神经网络拟合动力学模型,并结合了MPC(model predictive control)。作者使用model-based优化得到的动力学模型作为model-free算法的初始化,可以同时保留model-based算法样本复杂度小,model-free算法泛化能力强两方面的优势。
下载链接:https://www.aminer.cn/archive/neural-network-dynamics-for-model-based-deep-reinforcement-learning-with-model-free-fine-tuning/5a260c8417c44a4ba8a31564
65. Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning
来源:ICML’17
总结:
本文提出了两个方法解决深度多智能体强化学习难以使用经验回放(experience replay)的问题。第一个方法是使用importance sampling来减少过失数据的影响,第二个方法受Hyper Q-learning的启发,每个智能体学习策略时需要观察其他智能体的行为并估计它们的策略。作者在StarCraft unit micromanagement任务上验证了提出的方法可以将经验回放和多智能体强化学习结合。
下载链接:https://www.aminer.cn/archive/stabilising-experience-replay-for-deep-multi-agent-reinforcement-learning/58d82fced649053542fd7013
66.Learning to Communicate with Deep Multi-Agent Reinforcement Learning
来源:NIPS’16
总结:
本文研究了多智能体强化学习中智能体间如何沟通来共享信息。本文考虑的是多智能体之间互相协作,部分可观察的序列决策问题。作者采用了centralized learning 和decentralised execution的训练方式,提出了两个算法分别是RIAL(reinforced inter-agent learning)和DIAL(differentiable inter-agent learning)。RIAL使用DQN解决部分可观测问题,将其他智能体看做环境的一部分。DIAL可以在智能体之间传递梯度信息,实现了跨智能体的end-to-end训练。
下载链接:https://www.aminer.cn/archive/learning-to-communicate-with-deep-multi-agent-reinforcement-learning/57a4e91dac44365e35c98906
67.Learning multiagent communication with back-propagation
来源:NIPS’16
总结:
本文提出了一个用于协作任务的多智能体强化学习方法CommNet。CommNet的目标是学习多智能体之间通信,模型中每个智能体通过神经网络控制,同时通过一个通信通道获取其他智能体的信息。通信信息使用连续向量表示,因此模型可以通过反向传播训练。作者在四个任务上进行了实验,CommNet的效果好于没有通讯或者使用离散通讯信息的方法。
下载链接:https://www.aminer.cn/archive/learning-multiagent-communication-with-backpropagation/57a4e91aac44365e35c97d67
68.Dynamic Safe Interruptibility for Decentralized Multi-Agent Reinforcement Learning
来源:NIPS’17
总结:
在强化学习中,智能体在一些情况下需要被打断防止出现危险情况。本文研究了多智能体强化学习中的safe interruptibility问题。Orseau 和Armstrong在之前的工作中定义了单智能体系统中的safe interruptibility,但无法直接用到多智能体系统中。作者提出了适用于多智能体强化学习的dynamic safe interruptibility,并研究了该问题在joint action learners和independent learners两个学习框架中的应用。
下载链接:https://www.aminer.cn/archive/dynamic-safe-interruptibility-for-decentralized-multi-agent-reinforcement-learning/5a260c0c17c44a4ba8a1e19e
69. Learning values across many orders of magnitude
来源:NIPS’16
总结:
本文介绍了一种值函数的自适应正则化方法。强化学习中不同任务会有不同量级的值函数,DQN使用截取的方法将值限制在一定范围,但这种截取方法需要先验知识。本文提出了一个自动对目标值进行正则化的方法,便于算法选取超参。该方法不限于强化学习,还可以用在监督学习中。
下载链接:https://www.aminer.cn/archive/learning-values-across-many-orders-of-magnitude/58d83051d649053542fe9b39
70.Deep Reinforcement Learning in Parameterized Action Space
来源:ICLR’16
总结:
本文研究了适用于parameterized action spaces的强化学习方法。作者将DDPG算法扩展到parameterized action space,对动作空间梯度的界进行了限制。作者在HFO实验平台上进行了测试,该平台提供了parameterized action space强化学习的环境。
下载链接:https://www.aminer.cn/archive/deep-reinforcement-learning-in-parameterized-action-space/5736960d6e3b12023e5207a6
71. Reinforcement Learning with Parameterized Actions
来源:AAAI’16
总结:
本文介绍了Q-PAMDP算法,适用于parameterized actions的MDP问题。Q-PAMDP算法轮流学习动作选择策略的参数选择策略,并与直接进行策略搜索的方法比较。作者对算法进行了理论分析,证明了该算法可以收敛到局部最优点。
下载链接:https://www.aminer.cn/archive/reinforcement-learning-with-parameterized-actions/573696006e3b12023e51427c
72. Value iteration networks
来源:NIPS’16
总结:
本文介绍了VIN(value iteration networks)。VIN是一个包含规划模(planning module)块的神经网络模型用于学习如何规划,适用于强化学习问题。作者发现value-iteration planning算法可以通过CNN表示,通过将VIN嵌入神经网络中可以让算法学习规划相关的参数从而进行有效的预测,并可以使用反向传播算法训练。作者在多个任务上进行了实验验证了VIN的有效性。
下载链接:https://www.aminer.cn/archive/value-iteration-networks/573696006e3b12023e51416e
73. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
来源:ICML’18
总结:
本文提出了soft actor-critic算法。该算法是一个基于最大熵强化学习的off-policy actor-critic算法,在最大化奖励的同时最大化熵,让动作尽可能随机。作者证明了算法的收敛性,并在多个benchmark上超越了已有的on-policy或off-policy的算法。
下载链接:https://www.aminer.cn/archive/soft-actor-critic-off-policy-maximum-entropy-deep-reinforcement-learning-with-a-stochastic-actor/5a73cbcc17c44a0b3035f235
74. The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning
来源:ICLR’18
总结:
本文提出了Reactor模型,该模型结合了off-policy经验回放的低样本复杂度和异步算法的训练效率两方面优点,比Prioritized Dueling DQN和Categorical DQN有更低的样本复杂度,同时比A3C有更低的运行时间。作者在模型中使用了多个技术,包括:新的策略梯度算法beta-LOO,多步off-policy分布式强化学习算法Retrace,prioritized replay方法以及分布式训练框架。
下载链接:https://arxiv.org/pdf/1704.04651.pdf
75.Sample Efficient Actor-Critic with Experience Replay
来源:ICLR’17
总结:
本文介绍了一个使用经验回放方法的actor-critic算法。该算法集成了深度神经网络,方程缩减方法,off-policy Retract算法,分布式训练等多个技术。另外,作者还提出了新的truncated importance sampling方法,stochastic dueling networks结构和TRPO优化方法。
下载链接:https://www.aminer.cn/archive/sample-efficient-actor-critic-with-experience-replay/58d82fc8d649053542fd5854
76.Policy Shaping:Integrating Human Feedback with Reinforcement Learning
来源:NIPS’13
总结:
本文提出了policy shaping方法用于interactive 强化学习问题。Interactive强化学习需要将人类反馈融入算法中,传统方法将人类反馈作为奖励信号进行训练。作者提出了advise算法,将反馈作为策略的标记,最大化反馈中的信息。作者使用贝叶斯优化算法将反馈转化为策略,并设计了强化学习算法将反馈信息加入模型优化过程中。
下载链接:https://www.aminer.cn/archive/policy-shaping-integrating-human-feedback-with-reinforcement-learning/53e999c3b7602d970220614f
77. Interpolated policy gradient: Merging on-policy and off-policy gradient estimation for deep reinforcement learning
来源:NIPS’17
总结:
本文介绍了一类结合on-policy和off-policy两种方法优点的interpolated policy gradient方法。最近提出的一些结合on-policy和off-policy的算法都以看做本文提出的方法中特例。作者将on-policy产生的似然梯度和off-policy产生的确定性梯度进行插值,并理论分析了该方法的边界。作者另外通过实验分析了不同插值方法对算法效果的影响。
下载链接:https://www.aminer.cn/archive/interpolated-policy-gradient-merging-on-policy-and-off-policy-gradient-estimation-for-deep-reinforcement-learning/599c7953601a182cd2630a47
78.Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation
来源:NIPS’17
总结:
本文将Kronecker-factored approximation用于trust-region optimization算法中,适用于大规模的强化学习问题。Kronecker-factored approximation curvature (K-FAC)是一个适用于求解大规模自然梯度的方法, 作者将该方法扩展到策略梯度中,有效降低了强化学习算法的样本复杂度。
下载链接:https://www.aminer.cn/archive/scalable-trust-region-method-for-deep-reinforcement-learning-using-kronecker-factored-approximation/5a260c8117c44a4ba8a30fb9
79. Proximal Policy Optimization Algorithms
来源:arXiv
总结:
本文介绍了PPO(proximal policy optimization)算法。算法主要受到TRPO算法的启发,TRPO算法效果可靠但比较复杂,训练效率较低。作者提出的PPO算法仅使用一阶近似,实现更简单,泛化能力更好,实验中的样本复杂度也更低,在处理高维连续控制的问题上有很好的效果。
下载链接:https://www.aminer.cn/archive/proximal-policy-optimization-algorithms/59ae3bf12bbe271c4c71bc64
80.Simple Random Search Provides a Competitive Approach to Reinforcement Learning
来源:arXiv
总结:
本文作者介绍了一个适用于连续控制任务的随机搜索策略ARS(augmemted random search),同样可以取得start-of-the-art的效果,同时效率优于其他算法。ARS算法在基础随机搜索方法上使用了三个简单的规则,帮助算法更好地优化策略。该方法在MoJoCo benchmark上取得了良好的效果,可以高效的学到静态,线性的策略。
下载链接:https://www.aminer.cn/archive/simple-random-search-provides-a-competitive-approach-to-reinforcement-learning/5aed14d117c44a44381589f5
我们还会继续在下周一推出最后一期强化学习论文总结,感兴趣的小伙伴可以继续关注。
您可在后台回复“强化学习”获取104篇强化学习论文列表。