独家揭秘|可将人工智能大规模产业化的新理论“超深度学习”

对于这样显赫的题目大家首先要问是谁提出来的?这里主要涵盖需要通过该理论提出者的资历判断提出内容的真实性。遗憾的是提出者不是出身显赫的来自IBM,Google等等,这里只能提供笔者的研究经历供读者参考。

大约在90年代初期,当时由美国学界提出的导入“熵”的理论解决最佳化组合问题,这一理论一时也被世界瞩目,但是这个算法同目前深度学习相仿计算复杂度极高,即使一个最简单的电路的计算,要花费若干天,面对被世界推崇的理论笔者大胆的提出了“模糊事象概率”理论,通过用模糊概率的测度判断组合结果的价值,获得了快速进行大规模集成电路的最短配线长,最小面积以及电气特性的优化的多目的组合最佳化的解。其实当今的深度学习中的“训练”就是数学上的最佳化组合问题。

90年代后期发明了“概率尺度自组织”的机器学习理论,并通过声音识别,手写文字识别,图像识别等大量的应用,证明了机器学习理论的特殊的应用效果,在后面的会专题介绍。

进入2000年以来,国际上个人信息法的制定成为社会关注的焦点,由于当时个人信息的67%是通过纸介质文档流失的,为此我们发明了具有隐形结构的第三代条码网屏编码,可在A4的一张纸上埋入一本小说的信息备受业界的关注。在这十几年中针对Google眼镜,我们还提出了可以把任何图像直接通过概率尺度自组织的机器学习的手法变换成1036的代码,即ITC(Image To Code)理论。这个理论成为了AI的超深度学习的雏形。

我们是经过上一代人工智能的研究,对于当今火热的AI热潮,亲身感到并没有新的理论突破,不同的是人的思想的进步,特别是把神经网络理论作为AI的核心理论,对神经网络理论的认识提高了。在2014年以后我们将上述的机器学习与神经网络理论的结合,产生了超深度学习的理论。

下面我们重点讨论深度学习所遗留下的问题是怎么回事?深度学习是否是唯一的人工智能的理论?

最近AlphaGo连续打败人类,推崇深度学习会继续升温。首先深度学习是在实际应用中被看好的,应该肯定走机器学习这条路必然会给我们带来意想不到的应用效果,但是也应该清醒的看到深度学习还是科学家们的研究课题,目前有很多关键问题不能解决,距离实际应用甚远。我们之所以积极的推动超深入学习的普及,是因为我们看清了深度学习的不可解决的问题点,以及超深度学习的先进性实用性,可以马上实现工业化的特点。

首先必须搞清的是:深度学习的结果是将目标函数的信息通过训练承载到海量的属于欧几里德空间的参数上,虽然各方面报道应用效果独具,但是在数学上无法证明具有突破性,由于深度学习所构造的神经网络与大脑的机理又是风马牛不相干的,因此也不能看到在神经元的方面会起到什么作用,其结论是;通过这样的方式所产生的训练效果与所投入的硬件开销不成比例,况且AlphaGo的设计者也指出深度学习在整个系统中的作用只占30%的作用,是次要地位。

深度学习还有一个如图1所示的目前解释不了的问题,为什么层数越高训练结果的图像越清晰?开始我们曾认为是承载目标函数的信息的参数数量的提高使记录的信息的信息量的提高,但是从数学上我们可以证明在同等节点的层与层的训练中必定可以找到一组参数可使输入信息完全等于输出信息,这就说明深度学习的层数越多图像越清晰与训练的参数数量无关,这就剩下一个可以信服的原因,深度学习每一层所训练的结果实际获得的是一组局域最佳解,每一层的训练是一个传递的函数,所以每一层训练后的解是比上一层更接近整体最佳解的局域最佳解的参数,所以参数越接近整体最佳解图像就越清晰。

图1深度学习的学习效果

那么,深度学习的黑箱问题是怎么回事?这里所谓的黑箱问题是涉及两个方面的问题?一个是深度学习的机理是什么?绝大多数从事这方面研究的科学家解释不清?其实深度学习所训练的机理就是在一个海量的数据空间里进行组合,并没有其他特殊的机理,黑箱问题就在于在海量数据空间里组合,会出现无穷的局域最佳解,其局域最佳解的分布曲线通过数学方法无法计算出,人为的实验也是目前图灵机所做不到的,因此在训练中很可能会出现一个参数稍微改变输出结果会突然崩溃,或者是所训练的结果并不是按照我们想象的结果进行展开,在组合空间中所获的的局域最佳解出现在某一个情况下突然出现令人费解的状态是正常的,我们在通过规则解决最佳组合的NP问题中经常会出这种现象,往往是通过程序的调整来实现,对于深度学习要通过重新改变参数,寻求另一个局域最佳解的方法来解决。所以只要是知道深度学习的训练是数据最佳化组合的过程,就不难理解深度学习的黑箱问题。黑箱问题的另一个因素是深度学习是解决欧几里得空间的问题的算法,在模式识别的应用中输入量存在严重的随机性,这必然要传递到输出结果造成训练的参数无法稳定,这个问题比较好理解。

最后的问题就是在模式识别的应用上,是特征向量的质量重要,还是通过学习进行分类重要?回答很简单没有好的特征向量的质量再好的深度学习也是无济于事的,在许多文章中都把深度学习可以直接抽取特征量作为深度学习的一大特点,其实深度学习在特征映射的方法上简直是极其传统的处理方法,而且并没有考虑图像信息并不只是灰度信息,所以深度学习在模式识别上的应用特点只能停留在大量的学习的作用上,不会产生更多的突出效果。

在这里首先还是先论证为什么要对传统的深度学习进行彻底分析?不管深度学习有什么突出的效果,AlphaGo所需要的硬件开销是1000个CPU,200个GPU需要20万W的电力消耗,这样的硬件开销如何普及?反过来深度学习把如此大规模的硬件开销用来干什么?值得不值得?有没有可以大规模普及,性能高于深度学习的算法?

首先用空间分析法评价深度学习的价值:从数学上看深度学习就是如公式1所示;

公式1

是把输入函数表示为通过一层接一层的传递函数,从中产生海量的参数,由于海量参数承载了目标函数的信息,每一个参数的微小变化可以在欧几里得空间产生宏观的巨大的距离的差距,可以如公式2所示;

公式2

用在欧几里得空间公式的前面加一个参数W来表示,这个参数具有足够大,这好比我们在搞模式识别时,把特征向量统一看成是一个能量的分布,通过平方值扩大特征向量距离之间的差距,这种处理方法起初还是有一定效果的,但是,再成倍的扩大效果不明显,因为特征向量间的距离的扩大会同时扩大了特征向量之间的随机分布的范围,整体的距离的扩大的值与随机范围的扩大的值的比例并没有扩大多少。所以为了训练海量的参数所投入的巨大的硬件是得不偿失的。

再从最佳组合理论上分析,深度学习所采用如图2所示的损失函数的SGD评价方法,所得到的的训练是组合理论中的一个局域的最佳组合的解,这一点深度学习的研究者并不理解,其实这么一个高次的组合空间不可能只有一个局域的最佳解。

图2随即梯度下降法SGD的示意图

其实如图3所示,20多年前已经被一些例如Hopfild的AI科学家所认识,力图用组合理论的最短路径访问的方法进行神经网络的训练,深度学习增加隐藏层造成的海量的参数所形成的巨大的组合空间,在没有找到最佳的组合算法的时候,通过拼硬件只是暂时的,一定会被新的算法所颠覆。

图3“Hopfild的联想记忆与最佳组合理论”示意图

如何解决深度学习的问题点?超深度学习一举将深度学习所存在的所有问题全部给予解决。超深度学习的数学基础就是公式3所示的一个基于概率尺度的自组织算法。

公式3

G∋ pi (i=1,2,…,m)

An = A(Gn)

Mn = M[Gn,A(Gn)]

Gn = G{A(Gn-1),M[Gn-1,A(Gn-1)]}

这里,给定一个属于集合G的一组随机分布的数值pi (i=1,2,…,m),某一集合Gn中必然存在一个特征值An是在最大概率条件下可以表示集合Gn的一个值,同时也必然会有一个概率尺度Mn表示在以特征值An为中心时,概率尺度Mn范围内的所有概率分布值为该集合的最大概率值,那么概率尺度自组织可以由下式来表达。

Gn= G{A(Gn-1),M[Gn-1,A(Gn-1)]}

上述概率尺度自组织的输入信息是含有随机分布的特征量,也可以是概率值的分布信息,输出是针对学习数据的一个最大的概率值A,以及最大概率值的范围M。

在上述的基础上,我们提出了公式4的概率空间的距离的定义方法,

公式4

用以衡量在概率空间里特征向量之间的距离。与欧几里得空间不同的是,在概率尺度M的范围内,距离是“0”,这是使模式识别的精度飞跃式的提高的重要理论。也是证明头脑是概率空间的模型的重要理论。

接下来我们再分析概率尺度自组织的输出特性。首先这一机器学习的算法可以颠覆统计学的重要的两大参数,平均值和分散值,以及与这两大参数密切相关的相关分析,回归分析等。

概率尺度自组织与传统的机器学习相比的先进性在于如图4所示;概率尺度自组织是动态的,可以自主的逼近概率最高的区域,

图4自主的逼近概率最高的区域示意图

例如图5所示进行人脸识别时可以自动的寻找到概率分布最集中的人的脸部。可以直接的对输入的图像数据,声音数据等等进行概率尺度的自组织,可以获得最大概率的特征值。

图5自动逼近人脸的示意图

如图6所示;相比深度学习的特征映射的方法不能对应图像漂移,不能去伪存真过滤干扰信息,不能做到最大概率的获取特征信息。

图6深度学习特征映射示意图

概率尺度自组织还可以学习特征信息的生起概率,并可通过学习获得特征信息属于那个输出结果的最高概率值,使超深入学习成为模式识别的最高水平的算法。

概率尺度自组织的机器学习的特点是,简单,计算复杂度是线性的,易于发展,可以适应非常广阔的应用。结合神经网络理论可以产生大量的无监督学习,各种对抗学习等的新型超深度学习的模型。

下面具体介绍超深度学习的架构,超深度学习与普通的深度学习最大的不同是,普通深度学习是通过层与层之间的复杂连接关系产生海量数据,这种人为的将问题复杂化恐怕是典型学界的做法,这种做法可以引起众多的学者们的兴趣,是起到推动人工智能在理论上的完善必不可少的过程,几乎科学技术的发展都需要这个过程,当发展到一定程度时,必定有人出来从另一条路出发将多年积累的理论颠覆,产生可以实际应用的新理论。人工智能也一定要走这一道路。超深度学习就是对深度学习的颠覆,同深度学习不同的是超深度学习是直接对数据进行在概率空间中的机器学习,可以定量的对输入的随机分布信息进行分析,对数据进行分类,沉淀深层信息,最终给出最大概率的分类。超深度学习始终基于最大概率尺度的自组织,所以永远是无监督学习,也无需海量数据来承载目标函数的信息,是对输入数据的直接学习,这就产生了高效率的处理效果,无需巨大的硬件支持,一个最低的硬件配置就完全可以实现相当于深度学习功能,做到的最佳分类,最佳的处理结果。

图7超深度学习的架构示意图

超深度学习如图7所示;是由节点与节点直接连接的与若干个概率尺度的自组织机器学习单元来担任机器学习的任务,学习的层数与大脑一致,是由输入层,脑神经层,以及脑皮层组成,由同一个输入目标函数信息的多次学习,产生一个与特征向量所对应的学习特征值的向量,以及概率尺度的向量,并对应每一个脑神经的节点,目标函数信息仅仅承载在这两个向量上,这是超深度学习无需庞大的硬件环境支持的根源,当输入信息的特征向量与学习特征值的向量进行比对时,每一个特征向量的分量的对比结果小于阀值,即概率尺度时所对应的脑神经层的节点就产生一个脑神经信号输入到脑皮层,刺激脑皮层,脑皮层被刺激的信号越多越兴奋,依据脑皮层的兴奋程度决定是否为目标函数信息,这岂不是与大脑的机理非常接近吗?概率尺度就是脑神经的阀值,并不是深度学习中人为定义的参数,因此大脑机理应该建立在概率空间的模型,通过超深度学习的架构终于搞清楚了。

下面读者会问超深度学习只有三层如何深入,往往在大型服务器上运行需要处理更复杂的更高精度的目标函数,深度学习是靠大量的增加层数,其结果使系统的复杂度成为无限的程度,使未来的应用束手无策,超深度学习如图8所示;是按照针对复杂系问题的空间映射原理,可以把任何的复杂系的目标函数映射到任意多的子空间,针对每一个子空间的目标函数的信息用增加输入层的节点的方法进行,这使超深度学习可以把目标函数的处理无限的深入下去,却不增加系统的O(n2)的复杂度。在目标函数信息的输入环节,超深度学习针对每一个目标函数的分量通过概率尺度的自组织可以获得最大概率的特征值,这也是深度学习所望尘莫及的,超深度学习与深度学习相比,不仅在是否建立在概率空间的模型上处于优势,可以使深度学习需要很多的概率模型来弥补算法上的短板,在超深度学习里被省略,因此容易理解而易于深入推广又是超深入学习的一大特点。

图8超深度学习的深入方法

再有不管深度学习如何通过各种概率模型来解决算法上的弱势,但是只能停留在传统的概率统计的水平上,而超深度学习通过机器学习可以颠覆传统的统计学,使处理结果达到几乎无法再提高的程度。

超深度学习的实际应用的例子之一是如图9所示;

图9超深度学习实现图像变换代码的例子

将任意一个图像通过手机拍照后,通过超深度学习变换成一个1036的代码,导入了超深度学习无需通过喷印标记的方式构成光学可读性二维码,而是靠图像的灰度的分布自组织成一个二维码,也就是说可以通过手机拍摄商品标识,直接生成一个可以连接网络的二维码,让全世界的商品一夜之间就可连接网络。

超深度学习的图像直接生成代码,要比市场流行的开源程序AR图像识别技术具有相当高的难度,AR图像识别技术只要能区分不同图像的轮廓就可,超深度学习要克服由于手机在不同情况下拍摄的图像所产生的非常大的随机分布信息,通过概率尺度的自组织变换成一个稳定的代码,其应用结果必然产生突破,AR的识别结果是一个十兆字节以上的文件,而且分解能力差,一般只能在十几个图像之间检索,超深度学习把任意图像变换的是一个1036代码,只占几十个字节,而且分解能力可以在1036图像之间检索。

超深度学习与普通的深度学习的对比如表1所示;首先从方法上进行比较:

深度学习是在欧几里得空间里训练出海量的参数,用海量的参数承载目标函数的信息,超深度学习是直接针对输入的随机分布数据进行概率空间的自组织学习,将随机分布的数据进行去伪存真的处理,得出定量的并且稳定的最大概率的解,以及可以提炼出深层的信息。

表1超深度学习与深度学习的对比

在神经网络的结构上深度学习是数十层乃至数百层,这样就使问题的复杂度急剧扩大,造成组合的空间无穷的大,导致不可能得到最佳组合的解,因此出现黑箱问题等,超深度学习同大脑的构造近似,只有三层输入层,脑神经层,以及脑皮层,而且数学模型很接近大脑的机理,证明超深度学习符合大脑的结构。

深度学习的数据空间是欧几里得空间,利用欧几里得空间的数据也可以承载目标函数的概率值,因此深度学习在输入或输出的环节上加入不同的概率模型,以及概率统计的算法。超深度学习就是建立在概率空间的自组织,可以直接对输入的具有随机分量的数据进行去伪存真的特征抽出。

再有,在模型能力扩大的方法上深度学习是靠增加隐藏层的数量来实现的!超深度学习是靠增加输入层的节点的个数,通过将复杂系空间的映射,把目标函数变换成若干子空间,并把子空间的特征分量对应输入层的各个节点,通过扩大节点的个数达到深入学习的目的。

在特征量抽出上深度学习是在一个目标函数上通过稠密的目标函数的特征映射实现的,这种特征映射是传统的方法,解决不了目标函数的较大漂移,以及特征量为随机分布的信息。超深度学习针对输入的目标函数可以进行广域的自组织学习,可以最大概率的将特征量抽出,可以解决目标函数的漂移问题。

在处理结果上的对比:

在处理复杂度上,深度学习是每一层的节点数量的指数O(nn),而超深度学习一直保持在O(n2)的水平。

在硬件开销上,深度学习需要大量的GPU构成的巨型的硬件系统,而超深度学习可以在一个芯片或移动终端上实现。

在处理效率上,深度学习在训练海量参数时处理效率极低,而超深度学习直接对数据进行处理,所以处理效率极高。

在模型发展上,深度学习的基本模型20多年没有改变,是硬直性的很难突破,超深度学习是柔性的很容易发展,可以根据用途的不同进行有针对性的构建,是一个孕育突破性发展的模型。

在数据空间上,深度学习所训练的数据是欧几里得空间的数据,超深度学习的数据是在概率空间的学习所产生的数据。这是实质的区别。

在学习方式上深度学习只能建立在有监督的学习以及半无监督的学习,超深度学习本身具有最大概率的尺度的学习目标,可以完全的进行无监督的学习,同时也可实现两种对抗学习,是普通深度学习很难实现的。

当然深度学习在应用中在输入与输出环节上加入了大量的概率模型,以弥补训练的数据只能是欧几里得空间的数据这一短板,但是不管采用什么算法也只能停留在传统的统计学的水平上,超深度学习通过学习可以产生出颠覆统计学的效果,将错综复杂的概率纠缠进行最佳的概率的分类,可以对深层的信息进行挖掘和沉淀,使目标函数的处理达到不可能再提高的地步,这就是超深度学习的卓越之处。

如上所述,超深度学习的基本模型,同传统的深度学习的对比进行了介绍,这里准备介绍一个我们正在进行的超深度学习视觉芯片的开发情况。以及这一芯片的特点同导入深度学习的比较。

图10超深度学习视觉芯片的构成

图10是超深度学习视觉芯片的构成,这个项目是同由日立,NEC以及三菱电机的半导体事业部剥离,联合组建的日本最大的芯片公司RENESAS公司联合开发的,采用硬件加软件的形式,对于非常占用处理时间的颜色变换,以及为尽可能获取图像的本来信息,针对图像的空间映射等采用硬件处理,算法用软件处理。超深度学习独特的两种对抗学习以及无监督学习的算法均在这一款芯片里搭载,因此,可以使这一芯片在图像感知方面做到传统的算法无可比拟的天衣无缝的精度与应用效果。

我们的超深度学习的研发战略是,首先从算法上布局,既然已经证实,导入超深度学习可以颠覆传统的统计学的两大参数,那么与这两大参数有关的相关分析,回归分析等等大量的统计学的数学模型,将成为超深度学习的重要架构,这些成果可以分别通过论文的形式发表。同时将深度学习理论作为一个镜子,逐一的将深度学习的一些特殊的算法在超深度学习上实现,在应用上从图像感知,语音感知到预测推论等的应用可视化,在推广上从提供SDK程序,AI芯片以及开源平台,联合开发等等分别进行,我们是原创单位因此不同我们的用户竞争,我们的角色是技术提供与服务,以及基础性开发,因此不独立的进行具体项目的开发,可以为从事AI事业的创业公司进行技术合作以及技术入股。

作为我们奉献社会的超深度学习由于不是通过组合方式训练海量的参数的,是直接对随机分量的数据进行概率自组织的学习,因此不存在黑箱问题,而且最大的特点是硬件要求门槛极低,普通一个芯片,任何一个移动终端都可以立即应用,基础理论概念清楚,算法简单易懂,是可以大量普及的一个为大众服务的AI算法,为了证明超深度学习的能力,我们也在寻求社会支持,开发与AlphaGo对抗的超深度学习的算法,我们本来就是解决组合最佳化的NP问题的专家,有过各种类似的应用业绩,我们完全有能力同AlphaGo系统对抗,超深度学习的特点是把AlphaGo所需要的1000CPU,200个GPU耗电20万W的硬件开销用一个芯片代替,另一个特点是;超深度学习是概率的模型,因此可以将AlphaGo主要靠辅助的概率模型的程序实现,改为真正靠超深度学习模型来实现,衷心的希望从事AI研究的年轻的科学家加入到超深度学习的研究与推广中来!

Ph.D. 顾泽苍

gu@apollo-japan.ne.jp

2017年1月13日

(0)

相关推荐