何恺明团队新作！深度学习网络架构新视角：通过相关图表达理解神经网络

2024-06-25 01:58:56

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

导语：恺明大神出品，必属精品。Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索，提出了一种新颖的相关图表示方式。它有助于对现有网络架构进行更深层次的分析与性能评价。这种相关图的表示方式、实验发现等确实挺有意思，也与现有网络结构设计有一定相通之处，故推荐各位同学。

Abstract

神经网络通用被表示成图的形式(即神经元之间通过边进行链接)，尽管这种表示方式得到了广泛应用，但关于神经网络结构与性能之间的关系却鲜少有所了解。

作者系统的研究了神经网络的图结构是如何影响其性能的，为达成该目的，作者开发了一种新颖的称之为relational graph(相关图)的图表示方式，神经网络的层沿图像结构进行多次信息交互。基于这种图表示方式，作者发现了这样几点有意思发现：

相关图的靶点(sweet spot)可以促使神经网络的性能极大提升；
神经网络的性能与聚类系数、平均路径长度成平滑函数关系；
该发现具有跨数据集、跨任务一致性；
优秀的神经网络结构与真实生物神经网络具有惊人的相似性。
该文为神经网络架构设计与理解提供了一种新方向。

Introduction

神经网络可以通过计算图方式进行表示，神经元可以表示为节点，不同层神经网络之间的连接可以通过有向边表示。这种图表示方式说明了神经网络如何进行信息传递。

已有研究表明：神经网络的性能严重依赖于网络架构。但是网络架构与性能之间的关联性却鲜少有所研究，而这对于NAS尤为重要。从这个角度出发，有这样几个开放性的问题：(1) 网络架构与其性能之间是否存在系统性的联系？(2) 具有优秀性能的神经网络具有什么样的结构形式？(3)这种结构形式跨数据集、跨任务的泛化性能如何？(4)是否存在一种有效的方式可以确认给定网络具有优秀性能？

构建这样一种关联性同时具有科学与使用价值，因其有助于设计更高效、更高精度额网络架构，同时有助于新硬件架构的设计，理解神经网络的图结构有助于促进深度学习的前进。

然而，由于如何将神经网络映射为图形式并不清晰明了，进而构建这样一种关联性是非常困难的。计算图方式一种自然的选择，但其存在这样两个局限性：(1)泛化性能缺失；(2)生物神经元与神经网络的联系缺失(生物神经网络不能通过简单的有向无环图表示)。

为系统的研究神经网络的图结构与性能之间的关联性，作者设计了一种称之为相关图的神经网络图表示方式。关键聚焦于信息交互，而非交单的有向数据流。下图a给出了示意图，神经元之间进行多次信息交互，进而可以确保新的表示方式具有更丰富多样性的网络表示。

作者同时还设计了一种称之为"WS-flex"的图生成器，它有助于神经网络设计空间的系统探索。基于神经科学的发现，作者通过聚类系数与平均路径长度描述神经网络，这种网络架构具有灵活性与通用性，可以将其转换为多层感知器与卷积神经网络(见上图c和d)。

基于图像分类数据集CIFAR10与ImageNet，作者针对网络结构与性能之间的关联性进行了系统研究并得到了这样几点发现：

相关图的靶点(sweet spot)可以促使神经网络的性能极大提升；
神经网络的性能与聚类系数、平均路径长度成平滑函数关系；
该发现具有跨数据集、跨任务一致性；
相关图的靶点可以进行高效辨别，仅需要少量的相关图与少量训练；
优秀的神经网络结构与真实生物神经网络具有惊人的相似性。

Relational Graph

为更好的探索神经网络的图结构，我们首先介绍一下相关图的概念，并说明相关图的可以灵活的表示不同的神经网络架构。

Message Exchange over Graph

首先从图的结果对神经网络进行回顾，定义图，其中表示图的节点，表示节点之间的边，同时每个节点具有一个节点特征。当神经元之间存在信息交互时，我们称上述图定义为相关图。信息交互通过信息函数(输入为节点特征，输出为信息)与汇聚函数(输入为信息集合，输出为节点特征)进行定义。在每一轮信息交互过程中，每个节点向其近邻节点发送信息，并对收到的信息进行汇聚。每个信息通过信息函数进行变换并在每个节点通过汇聚函数进行集成。假设进行了R轮信息交互，那么第r次的信息交互可以描述为：

其中表示近邻节点集合，注：每个节点都与自身存在连接边。上式提供了一种广义的信息交互。下表给出了不同结构的相关图的表示配置。

下图示出了具有4层64维的多层感知器的相关图表示示意图。

Fixed-width MLPs as Relational Graph

多层感知器由多个多层神经元构成，每个神经元进行输入的加权求和，同时后接激活层。假设MLP的第r层以作为输入，作为输出，那么神经元的计算可以描述为：

我们来考虑一种极端情况(输入与输出具有相同的维度)，此时的多层感知器可以描述为完整相关图(complete relational graph),它的每个节点与其他所有节点相关联。定长全连接MLP具有特殊的信息交互定义，。定长MLP是更广义模型下的一种特例，此时信息函数、汇聚函数以及相关图结构具有可变性。基于上述信息交互定义，此时有：

General Neural Networks as Relational Graph

前述公式描述奠定了定长MLP表示为相关图的基础，在这部分内容中，我们将进一步讨论如何将其扩展为更广义的神经网络。

Variable-width MLP. 变长MLP是一种更通用的形式，无论在MLP中还是在CNN中，特征维度通常是变长的。作者提出通过Concat方式将特征扩展为特征向量，同时将信息函数扩展为矩阵形式，此时的变换过程描述为：

同时允许(1) 不同层的相同阶段具有不同的维度；(2) 同一层内，不同节点具有不同的维度。这种更广义的定义可以得到更灵活的图表示。

CNN as relational graph. 我们进一步将相关图应用到CNN，它的输入为张量，信息函数同样进行类似扩展，此时的变换过程可以描述为：

前述Table1给出了更详细的节点特征、信息函数以及汇聚函数在不同网络中的表现形式。

Exploring Relational Graph

在该部分内容中，我们将描述如何设计与探索相关图空间以更好的研究神经网络结构与其性能之间的关联性。需要从三个维度进行考虑：

Graph Measures;
Graph Generators;
Control Computational Budget

Selection of Graph Measure

给定复杂的图结构，GraphMeasures将用于对图属性进行描述。该文主要聚焦于一个全局图度量(average path length)与一个局部图度量(clustering coefficient)。注：这两个度量方式已被广泛应用与神经科学领域。更详细定义如下：

Average path length measure the average shortest path distance between any pairs of nodes;
clustering coefficient measure the proportion of edges between the nodes within a given node's neighborhood, divided by the number of edges that could possibly exist between them, averaged over all the nodes.

Design of Graph Generators

给定所选择的图度量方式后，我们期望生成大量的满足图度量空间的相关图，此时需要一个图生成器。然而，传统的图生成器仅仅能生成有限类别的图，而基于学习的方法则主要用于模仿样板图。

上图左说明了现有图生成技术的局限性：仅能生成特定类型的图。为此作者提出了一种新的图生成器WS-flex，它可以生成更广义的图结果(考考上图右)。关于WS-flex图像生成器的描述见下图，为避免误导各位同学，直接将原文搬移过来：

WS-flex可以生成更多样性的相关图，也就是说它几乎可以覆盖所有经典图生成方法所生成的图，见上示意图。它通过松弛节点的约束性得生成WS模型。特别的，WS-flex可以通过节点参数n、平均自由度k以及重置概率p进行描述。而图中的边数量可以通过决定。WS-flex首先常见了一个包含节点连接的图，然后随机挑选e与n节点并进行连接，最后所有边以概率p重置。作者采用WS-flex生成器在相应空间进行均匀平滑采样，最终得到了3942个图，见Figure1c。

Controlling Computational Budget

为更好的对不同图表示的神经网络进行比较，我们需要确保所有的网络具有相同的复杂度，从而确保了其性能差异仅源自结构的差异。作者提出采用FLOPS作为度量准则，首先计算baseline网络的FLOPS，然后将其作为参考调节不同的网络以匹配该复杂度(容差0.5%)。

Experimental Setup

在CIFAR10实验过程中，作者采用具有5层512隐层神经元的MLP作为baseline，输入为3072维，每个MLP层具有ReLU激活与BatchNorm。Batch=128，合计训练200epoch，初始学习率为0.1，学习率衰减机制为cosine。采用不同种子点训练5次取平均。

在ImageNet实验过程中，采用了三种类型的ResNet(ResNet34,ResNet34-sep，ResNet50)、EfficientNet-B0以及简单的类似VGG的8层CNN。所有模型分别训练100epoch，学习率方面同前，ResNet的Batch=256，EfficientNet-B0的batch=512。采用了不同种子点训练三次取平均。

下图给出了不同实验结果的系统性效果图，acf则给出了图度量的热图与性能的示意图。

总而言之，上图显示出了现有图结构优于完整图baseline，而最佳相关图在CIFAR10上以1.4%指标优于完整图baseline，在ImageNet上0.5%~1.2%的指标优于完整图baseline。

与此同时，我们可以看到：具有优异性能的相关图倾向于聚焦于靶点附近(见上图f)。可以通过这样几个步骤寻找该靶点：

将上图a中的3942图下采样为52个粗粒度的区域，每个区域记录了对应区域图的性能；
记录具有最佳平均性能的粗粒度区域；
与此同时记录下与最佳平均性能相关的其他区域；
覆盖上述区域的最小面积框即为靶点。CIFAR10数据集上的对于5层MLP而言，它的靶点区域为。

如上图bd所示，模型性能与图度量准则之间存在二阶多项式关系，呈现平滑U型相关性。

接下来，我们再来分析一下相关图跨跨数据集方面的一致性。从上图f可以看到：靶点位置具有跨网络结构一致性。

全文到此结束，更多实验结果建议去查看原文。作者在文中进行了大量的消融实验、关联性讨论、实现探讨以及神经网络与GNN的关联性。为避免误导各位同学，这里就不对实验部分进行过多介绍，前面主要针对核心实验结果进行了说明。更多的实验分析建议各位同学去查看原文，以更好的理解作者想要表达的意思，上文仅为笔者的一点点记录，难免有理解错误之处，还望担待。

Conclusion

该文提出了一种新的视角：采用相关图表达分析理解神经网络。该文为传统计算架构到图架构研究提供了一种信息过渡。与此同时，其他科学领域的的优秀图结构与方法可以为深度神经网络的理解与设计提供帮助，该文所提方法有助于深度学习网络架构的理解与设计，为未来高效而轻量的网络设计提供了一种引导。

◎作者档案

Happy，一个爱“胡思乱想”的AI行者

个人公众号：AIWalker

欢迎大家联系极市小编（微信ID:fengcall19）加入极市原创作者行列

用R语言中的神经网络预测时间序列：多层感知器和极限学习机

原文链接:http://tecdat.cn/?p=16392 对于此示例,我将对R中的时间序列进行建模.我将最后24个观察值保留为测试集,并将使用其余的观察值来拟合神经网络.当前有两种类型的神经网络可 ...
NeurIPS2020 | 图池化Rethinking pooling in graph neura...

点击上方蓝字关注我们 Rethinking pooling in graph neural networks 论文链接:https://arxiv.org/abs/2010.11418 代码链接:h ...
扩展图神经网络：暴力堆叠模型深度并不可取

节点之间的相互依赖关系使我们很难将损失函数分解为各个独立节点的影响. 在本文中,我们介绍了Twitter 研发的一种简单的图神经网络架构,该架构可以在大型图上有效工作. 1 图神经网络介绍图神经网络 ...
图神经网络 | BrainGNN: 用于功能磁共振成像分析的可解释性脑图神经网络

更多技术干货第一时间送达图神经网络简介 GNN是Graph Neural Network的简称,是用于学习包含大量连接的图的联结主义模型.近年来,图神经网络(GNN)在社交网络.知识图.推荐系统甚至 ...
收藏 | 图神经网络综述 (中文版)

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯仅做学术分享,如有侵权,联系删除转载于 :知网,专知摘要:随着计算机行业和互联 ...
中科院计算所沈华伟：GNN发展简史，诟病才是成长动力

图神经网络(Graph Neural Network)的应用在近年来蓬勃发展,但同时对其质疑也从未消失.诸如对与大规模图数据的存储问题,表达能力问题,以及数据集的规范问题引发了许多讨论. 中科院计算所 ...
脑机接口新应用，利用深度学习对无声语音信号解码

浙江大学.中国矿业大学和伦敦大学的研究人员研究了可用于识别神经肌肉信号的空间特征和解码器.具体来说,研究人员提出了利用迁移学习和深度学习的方法,将表面肌电信号数据转换为包含丰富的时频域信息的声谱图.对 ...
AAAI 2021 |图模型相关工作——数据扩充；近似梯度下降；解决灾难性遗忘问题

点击上方蓝字关注我们本文介绍三篇AAAI2021最新的研究工作,下面的三篇论文均与模型的设计相关,具体的任务涉及节点分类和图分类. Data Augmentation for Graph Neur ...
解决训练不稳定性，何恺明团队新作来了！自监督学习+Transformer=MoCoV3

作者丨happy 审稿丨邓富城编辑丨极市平台极市导读本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对Transformer在自监督学习框架中存在的训练不稳定问题 ...
理解深度学习泛化的新视角

视频介绍:理解深度学习泛化的新视角理解泛化是深度学习中尚未解决的基本问题之一.为什么在有限的训练数据集上优化模型会在保留的测试集上获得良好的性能?这个问题在机器学习中得到了广泛的研究,其悠久的历史可 ...
ICCV2021｜性能优于何恺明团队MoCo v2，DetCo：为目标检测定制任务的对比学习

作者丨小马编辑丨极市平台极市导读作者专为目标检测任务"量身定制"了对比学习框架DetCo,在PASCAL VOC数据集上,DetCo在100个epoch时的性能就与MoCo ...
何恺明团队最新力作SimSiam：消除表征学习“崩溃解”，探寻对比表达学习成功之根源

作者|Happy 编辑丨极市平台极市导读本文是FAIR的陈鑫磊&何恺明大神在无监督学习领域又一力作,提出了一种非常简单的表达学习机制用于避免表达学习中的"崩溃"问题,从 ...
基于深度学习网络的运动想象BCI系统及其应用

更多技术干货第一时间送达研究人员提出了一种基于深度学习模型的运动想象脑机接口(BCI).运动想象的脑动力学通常通过EEG作为低信噪比的非平稳时间序列进行测量.研究人员经过调研发现,以往对MI-EEG ...
Matlab构建和训练深度学习网络的算法和实现

全
大概是全网最详细的何恺明团队顶作MoCo系列解读！（上）

作者丨科技猛兽编辑丨极市平台极市导读 MoCo v1 是在 SimCLR 诞生之前的一种比较流行的无监督学习方法.本篇主要详细介绍了MoCo v1的做法.FAQ.实验以及完整的代码解读,经典之作值 ...
(10条消息) OpenCV之DNN模块，实现深度学习网络的推理加速

OpenCV是计算机视觉领域使用最为广泛的开源库,以功能全面使用方便著称.自3.3版本开始,OpenCV加入了对深度神经网络(DNN)推理运算的支持.在LiveVideoStack线上交流分享中英特尔 ...
大概是全网最详细的何恺明团队顶作MoCo系列解读...(完结篇)

作者丨科技猛兽编辑丨极市平台极市导读 kaiming 的 MoCo让自监督学习成为深度学习热门之一, Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是 ...