【第一期】20篇强化学习论文总结（附下载链接） / 开普饭

前段时间，我们为大家整理了105篇强化学习论文的综述及列表（点击获取）。

为了方便大家学习，我们将会出5期强化学习的论文总结，每期会有20篇左右的论文，在每周一发布，敬请关注。

本期内容如下：

1.Robust Adversarial Reinforcement Learning

来源：ICML’17

总结:

本文讨论了强化学习的鲁棒性。作者提出当前的强化学习方法难以泛化的两个主要原因：

（1）模拟环境和真实世界存在巨大差异导致模拟环境学习的策略难以迁移到真实世界。

（2）在真实世界直接学习则缺乏数据。作者提出了鲁棒对抗增强学习的思想，通过同时训练两个智能体来使得强化学习更好地泛化到真实世界。两个智能体分别称为“protagonist”和“adversary”。“adversary”的目标是产生系统扰动干扰“protagonist”的决策，“protagonist”的目标是能在“adversary”的干扰下完成给定的任务。文中还设计了一个零和马尔可夫博弈作为两个智能体的学习目标。

下载链接：https://www.aminer.cn/archive/robust-adversarial-reinforcement-learning/599c7954601a182cd26310c2

2.Mastering the game of Go with deep neural networks and tree search

来源：Nature

总结:

本文介绍了围棋AI程序AlphaGo 使用的技术。围棋AI的挑战主要来自两方面：一方面是庞大的搜索空间；另一方面是围棋的局面和走棋难以评估。AlphaGo设计了value networks和policy networks两个深度神经网络分别用于评估局面和选择下一步的走棋位置。这两个深度网络采用监督学习和强化学习两种方式训练，并通过蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）将两者结合到一起。文章发表时，AlphaGo和其他围棋AI程序对弈能达到99.8%的胜率，并以5：0的比分击败了欧洲冠军。

下载链接：https://www.aminer.cn/archive/mastering-the-game-of-go-with-deep-neural-networks-and-tree-search/56ab70cd0cf2c98bf5bc717a

3.Mastering the game of Go without human knowledge

来源：Nature

总结:

本文介绍了无监督版的AlphaGo，AlphaGo Zero。在AlphaGo的训练过程中需要有人类专家的棋谱作为训练样本进行监督训练，而在AlphaGo Zero完全依靠自我对弈，通过强化学习的方式训练。与AlphaGo不同，AlphaGo Zero通过一个神经网络用于局面评估和走棋位置选择，而并非value networks和policy networks两个网络完成。

下载链接：https://www.aminer.cn/archive/mastering-the-game-of-go-without-human-knowledge/59ec02da0cf22f5df7319dc3

4.Continuous Control With Deep Reinforcement Learning

来源：arXiv

总结:

本文将DQN应用在连续行动空间的强化学习问题上。DQN只能处理离散、低维的动作空间，难以直接扩展到连续行动空间上。作者提出了Deep DPG算法，是一个基于DPG（Deterministic Policy Gradient）的Actor-Critic方法，该算法在actor网络部分使用DPG算法，在critic网络使用DQN学习值函数。

下载链接：https://www.aminer.cn/archive/continuous-control-with-deep-reinforcement-learning/573696096e3b12023e51cb6b

5.Benchmarking Deep Reinforcement Learning for Continuous Control

来源：ICML’16

总结:

本文提供了一个连续控制领域的Benchmark，帮助研究人员测试对比强化学习算法。Benchmark中包含31个连续控制任务，包括简单任务（如cart-pole balancing），locomotion任务（如Humanoid locomotion），部分可观测任务以及层次结构的任务。Benchmark中还包括这些任务的基线算法用于对比算法效果。关于Benchmark的更多内容可以参考以下链接：https://github.com/rlworkgroup/garage.

下载链接：https://www.aminer.cn/archive/benchmarking-deep-reinforcement-learning-for-continuous-control/57a4e91aac44365e35c97e12

6.Deep Reinforcement Learning for Mention-Ranking Coreference Models

来源：EMNLP’16

总结:

本文提供了一个使用强化学习解决共指消解（coreference resolution）问题的方法。共指消解通常使用启发式的损失函数，这些损失函数需要调整超参来保证效果。作者在mention-ranking 模型中使用强化学习选择启发式损失函数的超参。

下载链接：https://www.aminer.cn/archive/deep-reinforcement-learning-for-mention-ranking-coreference-models/58437722ac44360f1082f5bd

7.Hybrid Code Networks: Practical and Efficient End-to-EndDialog Control with Supervised and Reinforcement Learning

来源：ACL’17

总结：

本文介绍了一个end-to-end对话系统的学习方法HCNs（Hybrid Code Networks）。HCNs在RNN的基础上可以结合领域知识，这些领域知识通过domain-specific software和domain-specific action templates两个模块实现。模型可以通过监督学习和强化学习来训练。实验表明通过HCNs加入领域知识可以减少学习需要的数据同时提高任务导向型对话系统的效果。

下载链接：https://www.microsoft.com/en-us/research/wp-content/uploads/2017/02/williams2017acl.pdf

8.Towards End-to-End Reinforcement Learning of Dialogue Agents for Information Access

来源：ACL’17

总结:

本文介绍了对话机器人KB-InfoBot的实现技术。KB-InfoBot通过与用户对话帮助用户搜索知识库的信息。过去的对话系统通过语义分析将用户的输入转化为符号化的表示，但这种方式无法表达语义分析过程中的不确定性，同时这种方式得到的损失度量不可导，破坏了end-to-end的学习过程。KB-InfoBot用后验分布来表示用户对知识库实体的查询意图，并结合强化学习进行end-to-end的训练，利用用户反馈学习对话系统的行动策略。

下载链接：https://www.aminer.cn/archive/towards-end-to-end-reinforcement-learning-of-dialogue-agents-for-information-access/59ae3c262bbe271c4c71e9cb

9. Deep Reinforcement Learning for Dialogue Generation

来源：EMNLP’16

总结:

本文介绍了强化学习在对话生成中的应用。基于Seq2Seq模型的对话系统通常有两个问题：一方面会产生很多通用的，没有信息量的回答；另一方面这类模型会做出重复回应，陷入死循环。为了解决上述问题，作者提出了多轮对话需要满足的三个要求：informativity，coherence和ease of answering，并定义了三个奖励函数，使用强化学习训练使对话系统可以更好地与用户交互。

下载链接：https://www.aminer.cn/archive/deep-reinforcement-learning-for-dialogue-generation/57a4e91dac44365e35c98401

10.Online Reinforcement Learning in Stochastic Games

来源：NIPS’17

总结：

本文研究了如何在随机博弈场景中使用增强学习。在传统的强化学习中，马尔可夫决策过程被用于描述单智能体与环境的交互。随机博弈作为马尔可夫决策过程的扩展，可用于描述多个智能体与环境的交互。本文考虑两人零和随机博弈的场景，与传统强化学习的区别主要在两人同时行动，并且共同对系统的奖励产生影响。基于该场景，作者提出了UCSG（Upper Confidence Stochastic Game）算法并做了相关的理论分析，如regret bound，sample complexity等。

下载链接：https://www.aminer.cn/archive/online-reinforcement-learning-in-stochastic-games/5a260c0c17c44a4ba8a1e165

11.Self-critical Sequence Training for Image Captioning

来源：CVPR’17

总结:

本文在图像标注（Image Captioning）任务中应用了强化学习的方法。Encoder/Decoder模型在图像标注任务中取得了巨大的成功，但依然存在两个问题：训练和测试时单词生成方式不一致，训练时是由ground-truth生成的单词，测试时是由模型生成的单词，一旦单词预测错误，测试误差会不断累积；另一方面测试时单词的生成过程不可导，无法进行end-to-end的训练。强化学习的引入可以有效解决上述两个问题。本文提出了SCST（Self-Critical Sequence Training）算法，利用测试阶段的奖励直接优化CIDEr指标可以有效提高模型效果。

下载链接：https://www.aminer.cn/archive/self-critical-sequence-training-for-image-captioning/58d82fcbd649053542fd683e

12. Improved Image Captioning via PolicyGradient Optimization of SPIDEr

来源：ICCV’17

总结：

本文提出了基于强化学习的图像标注方法，该方法使用SPIDEr作为奖励函数，并使用了基于Monte Carlo rollouts的PG（PolicyGradient）优化。SPIDEr是SPICE和CIDEr两个图标标注指标的组合。这两个指标分别用于衡量标注是否与图像相符以及标注是否符合句法。

下载链接：https://arxiv.org/pdf/1612.00370.pdf

13. Safe and Nested Subgame Solving forImperfect-Information Games

来源：NIPS’17

总结：

本文介绍了德州扑克AI系统Libratus背后的技术，该系统在2017年击败了人类顶级职业玩家。德州扑克是一种非完美信息游戏，玩家无法知道对手的牌面，玩家在当前状态下子博弈（subgame）的最优策略会受到对手玩家的影响。这和完美信息游戏，如国际象棋，围棋等有本质区别。本文介绍了Libratus使用的subgame solving技术，并进行了理论和实验分析。

下载链接：https://www.aminer.cn/archive/safe-and-nested-subgame-solving-for-imperfect-information-games/599c794e601a182cd262e8ab

14. Learning to Collaborate: Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

来源：WWW’18

总结：

本文提出了一个多场景联合排序算法，目标是提高多场景的整体效果。多场景之间存在博弈关系，单个场景提升无法保证整体提升。本文将多场景排序看做一个完全合作，部分可观测的多智能体序列决策问题，并采用多智能体强化学习的框架建模。作者提出了MA-RDPG（Multi-Agent Recurrent Deterministic Policy Gradient）算法，利用DRQN对用户的历史信息建模，同时用DPG对连续状态和连续动作空间进行探索。

下载链接：https://s5.51cto.com/oss/201801/17/a6d11ce96aa71ead6df7446f6689608a.pdf

15.Neural Adaptive Video Streaming with Pensieve

来源：SIGCOMM’17

总结:

本文使用强化学习的方法优化ABR（adaptive bitrate）算法。视频客户端通常会使用ABR算法优化用户体验。ABR算法一般使用启发式的规则来决定视频块的码率，作者提出了Pensieve系统，采用强化学习的方法自动学习ABR算法，效果比start-of-the-art的ABR算法提升12-25%。

下载链接：https://www.aminer.cn/archive/neural-adaptive-video-streaming-with-pensieve/59ae3c4c2bbe271c4c720742

16.ReasoNet: Learning to Stop Reading in Machine Comprehension

来源：KDD’17

总结:

本文提出了一个机器理解模型ReasoNet。ReasoNet是一个多轮推理的算法，通过强化学习的方法动态决定推理的轮数。模型的想法源于模拟人类阅读的过程，人类阅读通常会带着问题多次阅读原文直到获得的信息足够回答问题。ResonNet通过Memory Network和注意力机制对问题和原文的交互过程建模，同时引入一个终止状态判断是否停止阅读。由于引入的终止状态是离散量，模型无法用BP算法，因此采用强化学习的方法训练模型。

下载链接：https://www.aminer.cn/archive/reasonet-learning-to-stop-reading-in-machine-comprehension/58437722ac44360f1082f03b

17. Dual Learning for Machine Translation

来源：NIPS’16

总结：

本文介绍了利用单语语料训练的机器翻译模型的方法dual-NMT。机器翻译任务很容易找到对偶问题，例如英译法的对偶任务是法译英。Dual-NMT采取了对偶学习的机制，原始任务和对偶任务分别对应一个模型，两个模型可以形成闭环，利用交互得到的反馈通过强化学习的方式进行训练。

下载链接：https://www.aminer.cn/archive/dual-learning-for-machine-translation/58d83051d649053542fe9bc0

18.Reinforcement Mechanism Design

来源：IJCAI’17

总结:

本文介绍了一个对动态环境机制建模和计算的框架。该框架结合了强化学习的思想和行为经济学，用于机制的设计和优化。文中介绍了该框架的两个实际应用，分别是淘宝的impression allocation和百度搜索中的广告拍卖。

下载链接：https://www.aminer.cn/archive/reinforcement-mechanism-design/59ae3c262bbe271c4c71eebb

19.Tuning Recurrent Neural Networks with Reinforcement Learning

来源：arXiv

总结:

本文将强化学习应用在音乐生成任务中。音乐生成通常可以训练一个RNN（如LSTM）来根据已有的音符预测下一个音符。但这类序列模型很难保证多步生成的序列在全局保持一致。作者使用强化学习来改进基于RNN的音乐生成模型，在序列模型的目标函数中中加入基于乐理的奖励函数，通过DQN训练来提高音乐生成模型的效果。

下载链接：https://www.aminer.cn/archive/tuning-recurrent-neural-networks-with-reinforcement-learning/58d82fced649053542fd70bc

20.Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

来源：WSDM’18

总结:

本文将深度强化学习应用到了异构星型网络的表示学习中。在异构星型网络表示的学习过程中通常需要采样一系列的边来得到点之间的相似性，作者发现这些边的顺序会显著影响表示学习的效果。作者借鉴了课程学习（Curriculum Learning）的思想，研究如何在网络表示学习中学习这些边的采样顺序。该问题可以形式化为马尔可夫决策过程，作者提出了一个基于深度强化学习的解决方法。

下载链接：https://www.aminer.cn/archive/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning/5a9cb60d17c44a376ffb3c89

我们还会继续在每周一推出接下来的4期强化学习论文总结，感兴趣的小伙伴可以继续关注。

您可在后台回复“强化学习”获取105篇强化学习论文列表。

分享干货

常用的9个人脸数据库

8种Python文本处理工具集（附代码页）

人脸识别三大经典算法（附经典论文列表）

【汇总】AMiner发布的13期人工智能研究报告

AMiner知识图谱数据集开源，欢迎大家下载使用

12种Python 机器学习 & 数据挖掘工具包（附链接）

50年间，高水平论文数量排名前20的国家是怎样变化的？

【学术界大地震】哈佛大学撤销Piero Anversa 31篇造假论文

AMiner

发掘科技创新的原动力

【第一期】20篇强化学习论文总结（附下载链接）

相关推荐