物理学对于深度学习可解释性的启发(精确对比)

(精确对比)

https://m.toutiao.com/is/JTsFWbp/

令人惊讶的是,这个局部块旋转结构从训练过程中出现,表明DNN是自组织的,以实现块旋转重整化...无需手动干涉,它在学习。

如今,人工智能几乎存在于我们生活的每一个角落。智能手机、社交媒体供稿、推荐引擎、在线广告网络和导航工具是基于AI的应用程序的一些示例,这些应用程序每天都会影响我们。语音识别、自动驾驶、机器翻译和视觉对象识别等领域的深度学习已经系统地改进了现有技术的状态。

然而,使深度神经网络(DNN)如此强大的原因只是启发式理解 ,即我们只从经验中知道我们可以通过使用大型数据集并遵循特定的训练来获得优异的结果。

最近,基于基于物理的概念框架(称为重整化群(Renormalization RG))和一种称为受限玻尔兹曼机(RBM)的神经网络之间的显着类比,提出了一种可能的解释。

RG和RBM作为粗粒度过程

重整化是一种用于在无法获得有关其微观部分的信息时研究物理系统行为的技术。这是一种'粗粒度'方法,它显示物理定律如何随着我们缩小和检查不同长度尺度的物体而变化,即' 戴上模糊的眼镜'。

当我们改变观察物理系统的长度尺度时(当我们'放大'时),我们的理论遍历(航行)所有可能理论的空间。

重视的RG理论来源于它提供了一个强有力的框架,基本上事实解释了为什么物理学本身可能

为了描述诸如卫星之类的复杂结构的运动,人们不需要考虑其所有成分的运动。

RG理论提供了一个强大的框架,解释了为什么物理本身是可能的。

例如,我们只需要应用牛顿运动定律。我们不需要考虑卫星微观成分的极其复杂的行为来解释它的运动。我们在实践中所做的是对系统基本组件的详细行为进行'平均'。RG理论解释了为什么这个程序如此有效。

此外,RG理论似乎表明,我们所有的物理世界的现有理论都只是近似值一些未知的'真理'

RG理论似乎表明,我们目前对物理世界的所有理论都只是对某些未知的'真实理论'的近似。

当被调查的系统处于并显示自相似性时,RG运行良好。自我相似的系统在其被观察的任何长度范围内'完全或近似于其自身的一部分'。显示自相似性的系统的示例是分形。

临界点处的系统显示出彼此相距极远的部分之间的强相关性。所有子部分都影响整个系统,系统的物理特性完全独立于其微观结构。

人工神经网络也可以被视为粗粒度迭代过程。人工神经网络由多个层组成,如下图所示,较早的层仅从输入数据(如边缘和颜色)中学习较低级别的特征,而较深层的层次将这些较低级别的特征(由较早的特征提供)组合成较高级别的特征。用杰弗里辛顿的话说:'你首先要学习简单的特征,然后根据你的目标学习更复杂的特征,然后分阶段进行。'

如同在RG过程中,更深层次只保留被认为相关的特征,不再强调不相关的特征。

卷积神经网络(CNN)

CNN识别的复杂程度在后面的层中更高。

精确对比

物理学和机器学习都涉及具有许多成分的系统。物理学研究包含许多(相互作用)物体的系统。机器学习研究包括大量维度的复杂数据。此外,类似于物理学中的RG,神经网络设法对数据进行分类,例如动物的图片,而不管其组成部分(例如大小和颜色)。

在2014年的一篇论文中,两位物理学家Pankaj Mehta和David Schwab提供了基于重整化群理论的深度学习表现的解释。论文强调DNN是如此强大的特征提取器,因为它们可以有效地'模仿'粗粒化过程,这是RG过程的特征

引用论文的一句话:'DNN架构可以被视为一种迭代的粗粒度方案,其中NN的每个新的高级层都从数据中学习越来越抽象的高级特征'。

实际上,在他们的论文中,他们设法证明RG和受限玻尔兹曼机之间确实存在确切的映射 (RBM),构成DNN构建块的双层神经网络。

通过堆叠RBM建立的RG和DNN之间的映射

重整化群理论:鸟瞰图

如上所述,重归一化涉及将粗粒度技术应用于物理系统。RG理论是一个通用的概念框架,因此需要使用方法来操作这些概念。变分重整化群(VRG)是由Kadanoff,Houghton和Yalabik于1976年提出的一种这样的方案。

为了清楚地阐述,本文选择专注于一种特定类型的系统来说明RG是如何工作的,即量子自旋系统,而不是完全普遍地进行。但在深入研究数学机器之前,我们将对物理学中旋转含义进行解释。

物理学中旋转的概念

在物理学中,自旋可以定义为'由基本粒子,复合粒子和原子核携带的角动量的内在形式。'

虽然旋转是定义为没有经典对应物的量子力学概念,但是具有自旋的粒子通常是描绘为围绕其自身轴旋转的小顶部。旋转与磁现象密切相关。

粒子旋转(黑色箭头)及其相关的磁场线

重整化数学

让我们考虑N个旋转的系统或集合。出于可视化目的,假设它们可以放在格子上,如下图所示。

旋转的二维点阵(由小箭头表示),球体是带电原子

由于旋转可以向上或向下,因此它们与二进制变量相关联

索引i可用于标记晶格中自旋的位置。为方便起见,我将用向量v表示自旋的配置

对于热平衡系统,与自旋配置v相关的概率分布具有以下形式:

这是无处不在的(为方便起见,温度设定为1)。物体H(v)是系统的所谓哈密顿量,其可以被定义为 '对应于系统中所有粒子的动能和势能之和的算子'。分母Z是称为分区函数的归一化因子:

系统的哈密顿量可以表示为与自旋之间的相互作用相对应的项的总和:

参数集

被称为耦合常数,它们决定了自旋(第二项)之间或自旋和外部磁场(第一项)之间相互作用的强度。

我们需要考虑的另一个重要数量是。自由能源是一个最初来自热力学的概念,它被定义为' 物理系统中可以转化为工作的能量 '。在数学上,在我们的例子中给出了:

符号'tr'代表(线性代数概念)。在本上下文中,它代表在可见的自旋的所有可能的配置的总和v

在重新正规化过程的每个步骤中,系统在小长度尺度上的行为被平均。粗粒度系统的哈密顿量用新的耦合常数表示

并获得新的粗粒度变量。在我们的例子中,后者是块旋转h,新的哈密顿量是:

为了更好地理解什么是块旋转,请考虑下面的二维晶格。每个箭头代表一个旋转。现在将晶格划分为方形块,每个方块包含2×2个自旋。块自旋是对应于这些块中的每一个的平均自旋。

在块旋转RG中,系统被粗粒化为描述旋转块的有效行为的新块变量

请注意,新的哈密顿量具有与原始哈密​​顿量相同的结构,仅使用自旋块的配置代替物理自旋。

两个汉密尔顿主义者具有相同的结构,但具有不同的变量和耦合。

换句话说,模型的形式不会改变,但是当我们缩小模型变化的参数时。通过系统地重复这些步骤来获得理论的完全重整化。在几次RG迭代之后,一些参数将被删除,一些参数将保留。剩下的那些被称为。

这些汉密尔顿主义者之间的联系是通过要求RG变换后的自由能(在上面几行中描述)不变化而获得的。

变分重整化组(VRG)

如上所述,为了实现RG映射,可以使用变分重整化组(VRG)方案。在该方案中,映射由操作员实现

其中λ是一组参数。此运算符对隐藏和输入(可见)自旋之间的耦合进行编码,并满足以下关系:

它定义了上面给出的新哈密顿量。虽然在精确的RG变换中,粗粒度系统将具有与原始系统完全相同的自由能,即

这相当于以下条件

在实践中,这个条件不能完全满足,并且使用变分方案来找到最小化自由能之间差异的λ

或等效地,近似精确的RG变换。

RBM简要总结

以上详细描述了受限制的Boltzmann机的内部工作原理。在这里,我将提供更简洁的解释。

受限制的玻尔兹曼机器(RBMs)是基于能量的生成。用于。他们最简单的版本只包含两层:

  • 一层可见单元,用v表示
  • 一个隐藏层,单位用h表示

简单的受限制的Boltzmann机的例证

我将再次考虑二元可见数据集v,其中n个元素从一些概率分布中提取

输入或可见数据的概率分布

RBM中的隐藏单元(由向量h表示)耦合到可见单元,其中交互能量由下式给出:

能量子指数λ表示变分参数集{ cb,W } 前两个元素是向量,第三个是矩阵。RBM的目标是输出与λ相关的 概率分布,该概率分布尽可能接近输入数据P(v)的分布。

与配置(vh)和参数λ相关联的概率是该能量函数的函数:

从这个联合概率,人们可以通过对隐藏单位求和来轻松获得可见单位的变分(边缘化)分布。同样,隐藏单位的边缘化分布是通过对可见单位求和得到的:

我们可以如下定义RBM哈密顿量:

λ参数可以被选择以优化所谓的Kullback-Leibler距离(KL)散度或相对熵,其测量两个概率分布多么不同。在本案例中,我们感兴趣的是真实数据分布与RBM产生的可见单位的变分分布之间的KL差异。进一步来说:

当两个发行版都相同时:

完全映射RG和RBM

Mehta和Schwap表明,为了建立RG和RBM之间的精确映射,可以为变分运算符选择以下表达式:

回想一下,哈密顿量H(v)包含在其内部编码的输入数据的概率分布。通过这种变分算子的选择,可以快速证明隐藏层上的RG哈密顿量和RBM哈密顿量是相同的:

此外,当可以实现精确的RG变换时,真实和变分哈密顿量是相同的:

因此,我们看到具有自旋v和 块自旋h的重整化组的一个步骤可以精确地映射到由可见单元v和隐藏单元h组成的双层RBM 。

随着我们堆叠越来越多的RBM层,我们实际上正在执行越来越多的RG转换。

应用于伊辛模型

根据这一基本原理,我们得出结论,RBM是一种无监督深度学习算法,它实现了变分RG过程。这是一个非凡的对应关系,Mehta和Schwab通过在一个易于理解的Ising旋转模型上实现堆叠RBM来展示他们的想法。作为输入数据,它们将从Ising模型采样的旋转配置输入到DNN中。他们的结果显示,显然,DNN似乎正在执行(Kadanoff) 块旋转重整化。

在作者的话中'令人惊讶的是,这个局部块旋转结构从训练过程中出现,表明DNN是自组织的,以实现块旋转重整化...无需手动干涉,它在学习'。

他们的结果表明,DNN似乎正在执行块自旋重整化。

在图中,A显示了DNN的架构。在B中,绘制学习参数W以显示隐藏单元和可见单元之间的相互作用。在D中,当我们沿着DNN的层移动时,我们看到逐渐形成块旋转(图中的斑点)。在E中,示出了再现三个数据样本的宏观结构的RBM重建。

深度神经网络应用于2D Ising模型

结论和展望

2014年,表明,受限制的玻尔兹曼机(RBM)是一种神经网络,它与重整化群相连,这一概念最初来自物理学。在本文中,我回顾了他们的部分分析。如前所述,RG和深度神经网络都具有非凡的'哲学相似性':将复杂系统提炼成相关部分。这种RG-RBM映射是这种相似性的一种形式化。

由于深度学习和生物学习过程有许多相似之处,因此假设我们的大脑也可能使用某种'类固醇重整化'来理解我们的感知现实并不过分。

正如作者之一所,'也许有一些通用的逻辑来说明如何从数据中挑选出相关的特征,我想这可能就是存在这样的暗示。'

假设我们的大脑也可能使用某种'类固醇重整化'来理解我们的感知现实是有理论可能的。

(0)

相关推荐

  • 如何理解21年诺奖主题——复杂性?它关系到人类未来的命运

    今年的诺贝尔物理学奖有一个明确的主题:复杂性(complexity).复杂性的概念是任何人都可以想象的,但它的定义却很难绝对确定下来.复杂性对许多人来说是 "我看到它就知道它是什么 &quo ...

  • 万变不离其宗:用统一框架理解向量化召回

    前言 常读我的文章的同学会注意到,我一直强调.推崇,不要孤立地学习算法,而是要梳理算法的脉络+框架,唯有如此,才能真正融会贯通,变纸面上的算法为你的算法,而不是狗熊掰棒子,被层出不穷的新文章.新算法搞 ...

  • Youtube推荐中的深度神经网络应用

    Overall 从上述链接中可以看到,之前读的文章都是最近两年的.今天则给大家介绍一篇稍微久远点的,2016年的论文,追本溯源,或许能更好的理解推荐算法的变化和设计的初衷. 论文[1]中的Youtub ...

  • 知识蒸馏与推荐系统

    本文概览: 写在前面: 这是一篇介绍知识蒸馏在推荐系统中应用的文章,关于知识蒸馏理论基础的详细介绍,请看我的这篇文章: 深度学习中的知识蒸馏技术(上) 1. 背景介绍 1.1 简述推荐系统架构 如果从 ...

  • 人类绝望,机器接盘:用AI自动发现三体的守恒定律!北大校友与《生命3.0》作者共同杰作

    本文经授权转自公众号AI科技评论(ID:aitechtalk) 熟悉<三体>的科幻爱好者们都知道,三体人所在行星围绕着三颗恒星运行.不仅行星轨道极其不稳定,连三颗恒星之间的相对位置也变化无 ...

  • 深入理解YouTube推荐系统算法

    去年天池-安泰杯跨境电商智能算法大赛是我初次接触推荐相关的比赛,通过比赛让我对推荐系统有了较为浅显的认识,赛后也是打算系统的学习这方面的内容,此后我也会将[推荐系统]作为一个系列板块进行更新,主打经典 ...

  • 久别重逢话双塔

    回归前言 知乎最近应该搞了一个"返航计划",以唤醒流失作者,算是给我的回归增加了一个契机. 促使我下定决心回归的最后一根稻草是,唉,最近比较烦.比较烦.比较烦.人家梁朝伟心烦的时候 ...

  • 广告ctr预估场景下的dnn调优实战

    特征 DNN需要组合特征 LR模型的时候,我们需要构造许多组合特征,比如UserID与ItemID的组合,许多做DNN的都宣称简化了特征工程,由隐层学习特征交叉,但是隐层进行特征组合的方式并没有明确的 ...

  • 人脑是如何感知现实的?从物理学角度看深度学习,与大脑哲学相似

    如今,人工智能几乎出现在我们生活的方方面面.智能手机.社交媒体.推荐引擎.在线广告网络和导航工具等基于人工智能的应用程序每天都在影响着我们.深度学习在语音识别.自动驾驶.机器翻译和视觉对象识别等领域已 ...

  • [首藏作品](6420)机器学习新算法更好描述量子系统模型

    机器学习新算法更好描述量子系统模型科技日报北京4月29日电 (实习记者张佳欣)近日,英国布里斯托大学量子工程技术实验室的研究人员在<自然·物理学>杂志上发表一篇新论文,解释了一种通过充当自 ...