Yoshua Bengio:深度学习的未来需要“探索高级认知的归纳偏置”
深度学习是否收敛? 归纳偏置是什么 基于高级认知的归纳偏置是通向分布外泛化系统的途径 因果依赖的声明性知识 高级认知的生物学启示与表征 近期与扩展归纳偏置相关的工作 未来的研究方向 回顾过去:与经典符号AI的关系
归纳偏置是什么
表 1:现代深度学习中的归纳偏置示例
未来的研究方向
与本文中讨论的思想相一致的最大的挑战仍然是:同时学习一个大型的编码器(将低级像素映射到高级因果变量上)以及这些高级变量的大型因果模型。一种理想的解决方案是基于模型的强化学习,其中因果模型可以学习到随机的系统动力学。Bengio 等人于 2019 年小规模地(使用两个因果变量)对此进行了实验,并使用了一个保证其雅可比矩阵不包含奇异值 1 的编码器,从而避免了编码器的潜在坍塌(collapse)。为了避免编码坍塌,一种可能的解决方案是在高层次上使用对比损失(例如,Hjelm 等人于 2018 年发表的 Deep Infomax)。 另一个重大的挑战是,将声明式的指示表征(如结构化的因果模型)和推理机制(可能通过类似 RIM 及其变体中的注意力和模块化实现)统一在一个架构中。在人类的认知中,有大量关于将基于规则的行为巩固为快速的习惯性技能的数据,这些数据可以作为人类的灵感(例如,也许可以使用海马体的回放来训练类似于大脑皮层的模块,从而使其与声明式的知识保持一致)。关于变分自编码器的一些研究也可以为我们提供灵感(此时编码器作为推理机器,解码器作为因果模型)。 目前,大多数深度学习模型使用的是固定的参数共享和固定的内存访问模式,这非常适用于依赖单指令多数据流(SIMD)并行机制的现代计算硬件(例如,GPU 和 TPU)。然而,基于注意力的计算形式也许需要动态、不规则的、稀疏的内存访问和参数共享机制,而这与 GPU 并不太相适应,使得我们难以在一个 mini-batch 中的示例之间进行并行计算。想要解决该问题,需要我们在神经网络架构、底层编程、硬件设计等方面有所创新。在模型引导的并行性方面,Goyal 等人于 2020 年发表的 SCOFF 方法展现出了一定的发展前景,其中大部分计算任务被分散到各个专家模块上,而有意识的处理所占的计算开销只有很小的一部分。 人类进行规划的方式与当下被基于模型的强化学习(或者像基于蒙特卡洛树搜索和值函数的 AlphaZero 这样的混合方法)采用的方式有很大区别。人类似乎会利用以下的归纳偏置:(1)因果因子图的稀疏性(2)在抽象空间中的推理序列可能非常短。这意味着,在人们做出规划时,他们并不会构建包含所有状态的轨迹,而是会构建只考虑状态的某些层面(变量)的「部分状态轨迹」。此外,人们并不会在每一个离散的时间步上展开未来的轨迹,而是会直接学习如何将时间距离较远的事件联系起来,这与 Ke 等人于 NeurIPS 2018 上发表的论文「Sparse attentive backtracking: Temporal credit assignment through reminding」中对信用分配问题的思考相似。在新的规划方法中探究这些归纳偏置是十分有趣的,这些方法可能比标准方法更为高效。当我们做出规划时,我们可以考虑新的情况的可能性,如果模型遗漏了因果结构的某些重要方面,它可能就不会很好地泛化到这些具有新的变化的场景下,而规划也可能从根本上会高估或低估一些新的可能性。 我们希望在模块和数据点上的计算具有一定的稀疏性。同样地,这很难在 mini-batch 上实现,因为 mini=batch 是充分利用 GPU 的优势的必要条件。高效地优化这些计算是一件极具挑战的事,但是却可以极大地推动研究向前发展。 扩展到大量的模块上:大脑可能是由大量的独立模块组成的,而目前模块化深度学习方面的工作处理的模块则要比大脑少得多。研究新的可以有助于扩展到巨大规模的模块上的算法、架构是十分有趣的。 宏观和微观模块:通常在 GWT 中考虑的模块都是一些高级模块,例如:人脸识别、步态识别、目标识别、视觉例程(visual routine)、听觉语音感知、听觉对象识别、触觉对象识别等。上述这些都是宏观模块,而不是将视觉输入划分成单个目标的模块(即微观模块)。我们所做的大部分工作重点关注微观模块。如何构建一个模块化的层次结构,从而满足大规模和精细规模的知识和计算的模块化方式是一个值得探究的问题。
赞 (0)