【第三期】20篇强化学习论文总结(附下载链接)
前段时间,我们为大家整理了105篇强化学习论文的综述及列表(点击获取)。
为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,在每周一发布,敬请关注。
目前已出了
本期内容如下:
41.A Deep Hierarchical Approach to Lifelong Learning in Minecraft
来源:AAAI’17
总结:
本文提出了一个基于层次化深度强化学习网络的终生学习系统。终生学习要求保留学过的知识并能够有选择性地将知识迁移到新的任务,文章以Minecraft游戏作为学习场景。作者提出层次化深度强化学习网络(Hierarchical Deep Reinforcement Learning Network,H-DRLN)包括H-DRLN controller和Deep Skill Module两个主要模块。Deep Skill Module包括一系列的Deep Skill Networks (DSNs) ,这些DSN用于表示预学习的技巧,可以使系统保留学过的知识。H-DRLN controller用于控制是否重用之前学到的技巧。为了将技巧结合到学习过程中,作者把问题看做Semi-Markov Decision Process (SMDP)问题,并由Experience Replay 扩展出了Skill-Experience Replay。
下载链接:https://www.aminer.cn/archive/a-deep-hierarchical-approach-to-lifelong-learning-in-minecraft/57a4e921ac44365e35c98d75
42.Playing Atari with Deep Reinforcement Learning
来源:arXiv
总结:
本文提出了一个结合CNN和强化学习,直接从视频数据中训练游戏AI的Q-learning算法。作者在7个Atari游戏上进行了测试,在6个游戏中取得了更好的效果,其中三个游戏打败了人类专家。算法中使用神经网络估计动作值函数,神经网络中包含卷积层可以从游戏画面提取相关特征。神经网络的优化使用了Experience Replay方法。
下载链接:https://www.aminer.cn/archive/playing-atari-with-deep-reinforcement-learning/53e9a682b7602d9702fb756d
43.Learning to act by predicting the future
来源:ICLR’17
总结:
本文介绍了一个处理沉浸式环境中sensorimotor control问题的方法,在Visual Doom AI Competition的Full Deathmatch Track获得了冠军。Sensorimotor control问题通常使用Temporal-difference 或者Policy gradient方法。作者发现sensory stream和measurement stream中存在丰富的监督信息,而问题的目标可以通过未来的measurement表示,因此提出了一种监督学习的方法。该方法缓解了强化学习中sparse reward的问题,同时训练中不需要固定的目标,因此在test阶段可以泛化到不同的目标上。
下载链接:https://www.aminer.cn/archive/learning-to-act-by-predicting-the-future/58d82fd2d649053542fd7619
44. Active Neural Localization
来源:ICLR’18
总结:
本文介绍了Active Neural Localization模型,根据给定的环境地图和智能体的观察,可以估计出智能体的位置。该方法可以直接从数据学习,并主动预测智能体行动来获得精确和高效的定位。该方法结合了传统的filter-based定位方法和策略模型,可以使用强化学习进行end-to-end训练。模型包括一个感知模型和一个策略模型,感知模型根据当前智能体的观测计算可能位置的信念(Belief),策略模型基于这些信念估计下一步行动并进行精确定位。
下载链接:https://www.aminer.cn/archive/active-neural-localization/5a9cb66717c44a376ffb8b95
45. Asynchronous Methods for Deep Reinforcement Learning
来源:ICML’16
总结:
本文针对现有的深度强化学习方法提出了一种异步学习的框架。基于Experience Replay的强化学习需要存下探索过程,并且只能用off-policy算法。本文提出的异步框架通过并行地运行多个智能体,可以获取环境不同方面的信息。该框架可以实现on-policy训练,并减少了计算资源,其中Asynchronous advantage actor-critic (A3C)算法取得了最好的效果。
下载链接:https://www.aminer.cn/archive/asynchronous-methods-for-deep-reinforcement-learning/5736960a6e3b12023e51d64d
46.Deep Attention Recurrent Q-Network
来源:arXiv
总结:
本文在Deep Recurrent Q-Network(DRQN)上引入了注意力机制。DRQN结合了LSTM和DQN,相比DQN可以记住更多的状态。作者在DRQN基础上加入了soft attention和hard attention两种机制可以减少训练时间,并可以增加模型的可解释性。
下载链接:https://www.aminer.cn/archive/real-time-bidding-by-reinforcement-learning-in-display-advertising/58d82fd2d649053542fd7539
47.Reinforcement Learning Neural Turing Machines
来源:arXiv
总结:
神经图灵机(Neural Turing Machine)由于考虑了外部存储,比现有的机器学习模型具有更强的表达能力。神经图灵机与外部的交互需要连续可微,才能使用梯度下降的方法训练。当外部接口是离散的情况下,本文将神经图灵机的交互看做强化学习问题,提出了一个基于Reinforce算法的训练方法,并通过实验验证了方法的有效性。
下载链接:https://www.aminer.cn/archive/reinforcement-learning-neural-turing-machines-revised/56d85b6bdabfae2eee51fd07
48.Learning Deep Neural Network Policies with Continuous Memory States
来源:ICRA’16
总结:
本文介绍了一种处理连续控制任务的策略学习方法。该方法在状态空间增加了一些记忆状态(memory state),策略可以根据需要选择读取还是写入。作者采用trajectory-centric强化学习算法训练模型帮助学习记忆和回想策略。
下载链接:https://www.aminer.cn/archive/learning-deep-neural-network-policies-with-continuous-memory-states/56d843b1dabfae2eee9ceba3
49. Dueling Network Architectures for Deep Reinforcement Learning
来源:ICML’16
总结:
文本介绍了一个新的神经网络结构用于强化学习,称为dueling network architectures。Dueling Network有两路输出,分别表示state values和action advantages。这两路输出通过聚合得到状态动作值Q。这种结构可以学到哪些状态是有价值的,而不用关心每个动作对每个状态的影响,对于很多状态不需要估计每个动作的值。作者通过实验说明这种结构可以更好地对相似值的动作做出策略评估。
下载链接:https://www.aminer.cn/archive/dueling-network-architectures-for-deep-reinforcement-learning/5736960a6e3b12023e51d96d
50.Evolution Strategies as a Scalable Alternative to Reinforcement Learning来源:arXiv
总结:
本文作者使用进化策略在MuJoCo和Atari任务上可以取得比肩强化学习的效果,并论述了进化策略可以克服强化学习存在的一些缺点。进化策略是一种黑盒优化方法,直接搜索策略空间,相比机器学习算法不需要反向传播,高度可并行化且有良好的鲁棒性。文中介绍了一个高效的进化策略并行方法,并讨论了可以使用进化策略代替强化学习的情况。
下载链接:https://www.aminer.cn/archive/evolution-strategies-as-a-scalable-alternative-to-reinforcement-learning/599c7988601a182cd2648a2b
51. #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning
来源:NIPS’17
总结:
基于计数的强化学习探索策略通常无法直接应用到高维状态空间的强化学习问题上,主要由于高维状态空间带来的稀疏性。本文介绍了一个基于计数的,可以泛化到高维状态空间的探索策略。通过hash函数将状态映射到hash表计数,可以将经典的基于计数的探索方法应用到高维问题上,并且可以得到start-of-the-art的效果。作者还设计了可学习的hash函数,进一步提高效果。
下载链接:https://www.aminer.cn/archive/exploration-a-study-of-count-based-exploration-for-deep-reinforcement-learning/58d82fc8d649053542fd5bc6
52. Incentivizing Exploration in Reinforcement Learning With Deep Predictive Models
来源:arXiv
总结:
本文研究了深度强化学习中的探索算法,并提出了新的探索算法。作者提出的探索算法需要学习状态表示,并将状态表示的损失加入奖励函数中,指导算法探索新状态。该方法可以在多种强化学习算法中通用。
下载链接:https://www.aminer.cn/archive/incentivizing-exploration-in-reinforcement-learning-with-deep-predictive-models/573696106e3b12023e522825
53. Curiosity-driven Exploration by Self-supervised Prediction
来源:ICML’17
总结:
本文介绍了一个curiosity-driven的强化学习探索策略。强化学习问题中很多情况下奖励信号非常稀疏,作者提出将curiosity作为内部奖励信号来帮助算法探索环境,Curiosity定义为模型预测未来状态的预测误差。根据curiosity奖励可以帮助算法探索不确定高的状态,提高算法效率。
下载链接:https://www.aminer.cn/archive/curiosity-driven-exploration-by-self-supervised-prediction/599c7948601a182cd262b37f
54. Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning
来源:NIPS’15
总结:
本文介绍了基于变分推断和深度学习的互信息估计方法。Intrinsically Motivated强化学习算法中需要高效的互信息估计方法,作者提出的算法可以有效提高这类强化算法的可扩展性,相比现有的Blahut-Arimoto算法有更低的复杂度。
下载链接:https://www.aminer.cn/archive/variational-information-maximisation-for-intrinsically-motivated-reinforcement-learning/5736986b6e3b12023e72fc8c
55.Deep Exploration via Bootstrapped DQN
来源:NIPS’16
总结:
本文介绍了Boostrapped DQN,对强化学习的探索策略进行了改进。通常的dithering策略,动作值只用一个数值估计,如果能对值的不确定性进行估计可以帮助算法更有效地探索。作者使用Boostrap方法对深度神经网络的不确定性进行估计,指导算法的探索策略,在实验中取得了更好的结果。
下载链接:https://www.aminer.cn/archive/deep-exploration-via-bootstrapped-dqn/5736960a6e3b12023e51d516
56.The Option-Critic Architecture
来源:AAAI’17
总结:
本文研究了基于option的策略梯度理论,并提出了Option-Critic Architecture可以同时学习intra-option 策略和options的终止条件。模型基于两个理论:Intra-Option Policy Gradient Theorem和Termination Gradient Theorem,根据这两个理论可以推导出基于option的策略梯度方法。
下载链接:https://www.aminer.cn/archive/the-option-critic-architecture/58437725ac44360f1082fdcf
57. FeUdal Networks for Hierarchical Reinforcement Learning
来源:ICML’17
总结:
本文提出了用于分层强化学习的神经网络结构FeUdal Networks(FuNs)。FuN是一个模块化的神经网络,由Worker和Manager两部分组成。manager用于计算状态的隐表示,Worker 根据外部观察、自身状态和 Manager 的目标产生行动。这种显示的解耦方式可以使模型在不同的时间分辨率上获取信息。作者在 ATARI 和 DeepMind Lab 环境下验证了模型的性能。
下载链接:https://www.aminer.cn/archive/feudal-networks-for-hierarchical-reinforcement-learning/599c796d601a182cd263c820
58.Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation
来源:NIPS’16
总结:
本文介绍了一个分层强化学习框架,可以结合不同层次的action-value,多个时间尺度的抽象来帮助智能体的优化策略。本文提出的框架包括两层,上层利用输入的状态选择一个内部激励产生的目标,下层同时利用状态和目标选择行为。两层分别对应不同时间分辨率的信息,可以使智能体更有效地探索环境。
下载链接:https://www.aminer.cn/archive/hierarchical-deep-reinforcement-learning-integrating-temporal-abstraction-and-intrinsic-motivation/57a4e91dac44365e35c98480
59. Deep Reinforcement Learning in Large Discrete Action Spaces
来源:arXiv
总结:
本文研究了离散动作空间庞大的情况下中如何使用深度强化学习,主要思想是将离散动作通过embedding映射到连续向量空间,之后使用最近邻搜索找到最近的离散动作。文章提出了Wolpertinger Policy网络减少评估动作时的代价,并使用了DDPG方法训练模型参数。
下载链接:https://arxiv.org/pdf/1512.07679.pdf
60.Learning to Reinforcement Learn
来源:arXiv
总结:
本文将Meta Learning的思想用到了强化学习中,目标是使深度强化学习方法可以快速迁移到新的任务中。Recurrent Netowrks可以处理监督学习的meta-learning问题,作者将方法用到强化学习的meta-learning问题中。作者在原有任务的强化学习过程中加入第二个强化学习过程,该过程使用RNN模型自动学习不同任务的知识,新任务可以利用RNN中的知识加快训练过程。
下载链接:https://www.aminer.cn/archive/learning-to-reinforcement-learn/58d82fc8d649053542fd59c5
我们还会继续在每周一推出接下来的2期强化学习论文总结,感兴趣的小伙伴可以继续关注。
您可在后台回复“强化学习”获取105篇强化学习论文列表。