ICLR 2019论文主题|RL最受欢迎，RNN下降幅度最大，GAN仍在继续发展 / 开普饭

本文作者：Chip Huyen

编译：学术君

相比于闹得沸沸扬扬的IJCAI审稿争议，2019 ICLR的评审结果没有出现太多争论。并于 2019年5月6日至9日在美国新奥尔良举行会议。2019年的投稿数量比去年增长了近60%，共收到1591篇，录取率为31.7%。

此次会议开始后，在Sasha Rush的开场白中，他提到了一些统计数据如下：

只有8.6％的演讲者和15％的参与者是女性
有2/3的LGBTQ +研究人员不专业
8位受邀演讲者都是白人

来自Sasha Rush开场白的幻灯片

加州大学伯克利分校的助理教授谢尔盖·莱文（Sergey Levine）可能是今年在ICLR发表论文最多的人，他有15篇被接受的论文。

Sergey Levine于2009年获得斯坦福大学计算机科学学士和硕士学位，在获得博士学位后，他于2014年加入加州大学伯克利分校电子工程和计算机科学系。他的研究包括开发结合感知和控制的深度神经网络策略的端到端训练算法，用于逆强化学习的可扩展算法，深度强化学习算法等。

图片源自谷歌

无监督表示学习相关论文入选率低

无监督表示学习的主要目标是从未标记数据中发现有用的数据表示以用于后续任务。在自然语言处理中，它通常通过语言建模来完成。然后将学习的表示用于诸如情感分析，名称实体识别和机器翻译之类的任务。

去年发表的一些最具进展性的论文是关于自然语言处理的无监督表示学习，包括如下内容：

Matthew E. Peters等人的《Deep contextualized word representations》

论文摘要：我们引入了一种新的深层语境化词语表示，它模拟了（1）单词使用的复杂特征（例如，语法和语义），以及（2）这些用法如何在语言上下文中变化（即模型多义词）。我们的单词向量是深度双向语言模型（biLM）的内部状态的学习函数，它是在大型文本语料库上预先训练的。我们表明，这些表示可以很容易地添加到现有模型中，并显著改善六个具有挑战性的NLP问题的技术发展水平，包括问答、文本蕴涵和情感分析。我们还提供了一个分析，表明暴露预训练网络的深层内部是至关重要的，允许下游模型混合不同类型的半监督信号。

Jeremy Howard等人的《Universal Language Model Fine-tuning for Text Classification》

归纳转移学习极大地影响了计算机视觉，但NLP中的现有方法仍需要从头开始进行任务特定的修改和培训。我们提出了通用语言模型微调（ULMFiT），这是一种有效的传递学习方法，可以应用于NLP中的任何任务，并介绍了微调语言模型的关键技术。我们的方法明显优于六个文本分类任务的最新技术，将大多数数据集的误差降低了18-24％。此外，仅使用100个标记示例，它可以在100倍以上的数据上从头开始匹配训练的性能。我们开源我们的预训练模型和代码。

尽管大多数大牌研究实验室已经在研究“我们怎样才能让无监督的代表学习为图像工作？”，但ICLR只选了一篇论文：“无监督表征学习的元学习更新规则”（Metz等人）。他们的算法不是更新权重，而是更新学习规则。然后对从学习的学习规则中学习到的表示在少量标记样本上进行微调，以完成图像分类任务。他们能够找到学习规则，在MNIST和Fashion MNIST上达到准确率> 70％。外部循环需要大约100k个培训步骤，256个CPU需要200个小时。

元学习的内循环和外循环（Metz等）

在不久的将来，也许我们会看到更多这样的论文。可以用于无监督学习的一些任务包括：自动编码，预测图像旋转（Spyros Gidaris等人的《Unsupervised Representation Learning by Predicting Image Rotations》在ICLR 2018已经命中），预测视频中的下一帧。

基础语言学习相关论文卷土重来

麻省理工学院媒体实验室的基础语言学习和理解项目于2001年停止，但基础语言学习的相关论文今年卷土重来，有两篇论文穿着强化学习的衣服：

《DOM-Q-NET: Grounded RL on Structured Language》 - 一种RL算法，通过填充字段和点击链接来学习浏览网页，给出用自然语言表达的目标。
《BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning》 - OpenAI Gym兼容平台，带有手工制作的机器人代理，模拟人类老师指导代理人学习合成语言。

确定有穷自动机（DFA）今年也在深度学习领域找到了自己的位置，有两篇论文：

《Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks》

论文摘要：我们研究了递归神经网络（RNN）在学习识别常规形式语言时所使用的内部表示。具体来说，我们从常规语言训练RNN的正面和负面示例，并询问是否存在将该RNN的状态映射到该语言的最小确定性有限自动机（MDFA）的状态的简单解码函数。我们的实验表明，这样的解码函数确实存在，并且它将RNN的状态映射到MDFA状态，而是映射到通过将小的MDFA状态集合成“''''superstates''获得的{\ em抽象}的状态。。定性分析表明，抽象通常有一个简单的解释。总的来说，结果表明RNN和有限自动机使用的内部表示之间存在强烈的结构关系。

《Learning Finite State Representations of Recurrent Policy Networks 》

论文摘要：循环神经网络（RNN）是控制策略的有效表示，用于广泛的强化和模仿学习问题。然而，由于使用连续值记忆向量和观察特征，RNN策略特别难以解释，理解和分析。在本文中，我们介绍了一种新技术，即量化瓶颈插入，以学习这些向量和特征的有限表示。结果是RNN的量化表示，可以对其进行分析，以提高我们对记忆使用和一般行为的理解。我们在合成环境和六个Atari游戏中展示了这种方法的结果。在某些情况下，所得到的有限表示非常小，使用少至3个离散存储器状态和10个完美Pong策略的观察结果。

从RNN学习DFA的三个阶段（Koul等）

提取的自动机（Koul等人）

RNN相关论文数量下降幅度最大

从2018年到2019年，提交主题的相对变化表明RNN的下降幅度最大。这并不奇怪，因为虽然RNN对于顺序数据是直观的，但它们存在巨大的缺点：它们无法并行化，因此无法利用自2012年以来推动研究进步的最大因素：计算能力。RNN从未在CV或RL中流行，对于NLP，它们正在被基于注意力的架构所取代。

图片来自ICLR 2019的补充统计数据

这是否意味着RNN在研究界“死”了？并不是的。今年两个最佳论文奖之一是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks 》。除了本文和上述两篇关于自动机之外，今年还有9篇关于RNN的论文被接受，其中大部分都深入研究了RNN的数学基础，而不是发现RNN的新应用。

但是RNN在行业中仍然非常活跃，特别是对于那些处理贸易公司等时间序列数据的公司，不过这些公司通常不会公布他们的工作。虽然RNN目前对研究人员没有吸引力，谁知道它在未来会不会卷土重来呢？

GAN仍在继续发展

尽管GAN与去年相比呈现负相对变化，但实际上相关论文数量从约70增加到约100。

整个海报会议第一次专门讨论GAN。内容包含了新的GAN架构、旧GAN架构的改进、GAN分析。从图像生成到文本生成到音频合成的GAN应用有PATE-GAN、GANSYnth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN和KnockoffGAN等。

强化学习仍然是提交论文中最受欢迎的主题

RL社区正在从无模型方法转向基于样本的模型和元学习算法。大部分被接受的论文，连同RL研讨会的整个结构和入门，致力于将有关环境的一些知识整合到学习算法中。虽然早期深度RL算法的主要优势之一是通用性（例如，DQN对所有Atari游戏使用相同的架构而不了解任何特定游戏），新算法表明，结合先前知识有助于完成更复杂的任务。例如，在运输者网络（Jakab等人）中，代理人使用先验知识进行更具信息性的结构探索。

在多个任务之间执行快速转移学习的元学习算法在样本效率和性能方面也得到了很大改善。当我们可以使用从其他任务中学习的控制策略而不是从头开始训练它们时（这对于复杂的任务是不可能的），这些改进使我们更接近“ImageNet的RL时刻”。

PEARL在六个基准任务的渐近性能和元训练样本效率方面都优于以前的meta-RL方法

总而言之，在过去的5年中，RL社区开发了各种有效的工具，用于在无模型设置中解决RL问题。现在是时候提出更多样本效率和可转移的算法来将RL应用于现实世界的问题。

ICLR 2019的补充统计数据中的这张图特别具有指示性。也许有人应该写一篇关于“用于普遍的，可转移的无监督元学习的强大概率框架”的论文。

ICLR 2019论文主题|RL最受欢迎，RNN下降幅度最大，GAN仍在继续发展

相关推荐