“用魔法击败魔法”？一群计算神经学家正借神经网络解释大脑 / 开普饭

大数据文摘授权转载自学术头条

作者：Anil Ananthaswamy（科普作家）

译者：Yang

2011 年冬天，麻省理工学院计算神经科学博士后研究员 Daniel Yamins 有时会在他的机器视觉项目上苦干到午夜。

他正全身心地投入到一个视觉系统的设计上：该系统应该能够识别图片中的物体，而不受大小、位置和其他属性的影响，正如人类的视觉系统所能够轻而易举实现的那样。这个系统利用了深度学习神经网络（一种受大脑的神经系统启发而产生的计算策略）。

“我记忆犹新，我们实现了一种深度神经网络，它的的确确能解决这个问题。” 当时是凌晨 2 点，有点太早了，Daniel Yamins 还不能叫醒他的导师 James DiCarlo 和其他同事，所以兴奋的 Daniel Yamins 只好在剑桥区寒冷的夜里散步。“我真的很兴奋，” 他说。

在人工智能领域，深度神经网络已经被视为瞩目的突破。但这并不是 Daniel Yamins 和他的同事们的主要目标。对他们和其他神经学家来说，这是具备大脑功能的计算模型的黄金发展时期。

如今 9 年过去，DiCarlo 和 Yamins 已经在斯坦福大学拥有自己的实验室，并是使用深度神经网络来理解大脑结构的神经科学家圈子中的一员。

他们不但想知道为什么大脑可以用不同部分解决不同任务，而且还想知道这些不同的部分是怎样实现专业化的：例如，大脑有一个区域可以识别一般的物体，但也可以识别特定的面孔？深度神经网络表明，这种专业化可能正是解决问题最有效的方法。

Daniel Yamins

现任斯坦福大学工作的计算神经学家 Daniel Yamins 表示，一个像大脑那样对场景进行分层处理的神经网络，可以与人类在识别物体方面的机制相映射。

同样的，研究人员已经证明，最擅长分类语言、音乐和仿造气味的深度神经网络，其结构似乎与大脑的听觉和嗅觉系统是类似的。这种相似之处也在另一类深度神经网络得到了体现：它们可以仅通过观察 2D 场景就推断其中的 3D 对象的潜在属性。该发现有助于解释生物感知为什么既快速又丰富。这些结果表明，生物神经系统的结构对它们所承担的任务具有某种独到的最佳解决方案。

考虑到神经科学家一直以来对大脑和深度神经网络之间的相似度持怀疑态度，这些发现就更加出人意料了，因为深度神经网络本身的工作原理是难以理解、不可解释的。“老实说，过去我的实验室里没有人做过任何关于深度神经网络的研究，” 麻省理工学院的神经科学家 Nancy Kanwisher 说。“现在，他们中的大多数人每天都在例行训练深度神经网络。”

深度神经网络与视觉

人工神经网络由被称为 “感知器”、相互连接的单元所建立，感知器则是生物神经元的简化数字模型。人工神经网络至少有两层感知器，一层用于输入层，另一层用于输出层。在输入和输出之间夹上一个或多个 “隐藏” 层，就得到了一个 “深层” 神经网络，这些层越多，网络越深。

深度神经网络可以通过训练来识别数据中的特征，就比如代表猫或狗图像的特征。训练包括使用一种算法来迭代地调整感知器之间的连接强度（权重系数），以便网络学会将给定的输入（图像的像素）与正确的标签（猫或狗）相关联。理想状况是，一旦经过训练，深度神经网络应该能够对它以前没有见过的同类型输入进行分类。

但在总体结构和功能上，深度神经网络还不能说是严格地模仿人类大脑，其中对神经元之间连接强度的调整反映了学习过程中的关联。

神经科学家常常指出深度神经网络与人脑相比存在的局限性：单个神经元处理信息的范围可能比 “失效” 的感知器更广，例如，深度神经网络经常依赖感知器之间被称为反向传播的通信方式，而这种通信方式似乎并不存在于人脑神经系统。

然而，计算神经科学家会持不同想法。有的时候，深度神经网络似乎是建模大脑的最佳选择。

事实上，现有计算机视觉系统已经受到我们所知的灵长类视觉系统的影响，尤其是在负责识别人、位置和事物的路径上，借鉴了一种被称为腹侧视觉流的机制。

对人类来说，腹侧神经通路从眼睛开始，然后进入丘脑的外侧膝状体，这是一种感觉信息的中继站。外侧膝状体连接到初级视觉皮层中称为 V1 的区域，在 V1 和 V4 的下游是区域 V2 和 V4，它们最终通向下颞叶皮层。非人类灵长类动物的大脑也有类似的结构（与之相应的背部视觉流是一条很大程度上独立的通道，用于处理看到运动和物体位置的信息）。

这里所体现的神经科学见解是，视觉信息处理的分层、分阶段推进的：早期阶段先处理视野中的低级特征（如边缘、轮廓、颜色和形状），而复杂的表征，如整个对象和面孔，将在之后由颞叶皮层接管。

这些见解指导了 Yamins 和他的同事如何设计深度神经网络。他们的深度神经网络中有一定的隐藏层，其中一些进行了 “卷积”，对图像的每个部分应用相同的过滤器。每次卷积都捕获了图像不同的基本特征，比如说图像边缘。

基本的特征在网络的早期阶段被捕捉，复杂的特征在更深层的阶段被捕捉，正如灵长类的视觉系统。当像这样的卷积神经网络（CNN）接受图像分类训练时，它会从随机初始化过滤器的权重值开始，然后逐步学习当前任务所需的正确值。

团队开发的四层 CNN 可以识别出 5760 张逼真的 3D 图像中描绘的八类物体（涵盖动物、船、汽车、椅子、脸、水果、飞机和桌子）。照片中的物体在姿势、位置和比例上都有变化。尽管如此，深度学习网络的性能也与非常擅长识别物体的人类相当。

Yamins 所未知的是，计算机视觉领域正在酝酿的一场革命，也将独立地验证他和他的同事们所采用的方法。

在他们构建完上述的 CNN 网络后不久，一个名为 AlexNet 的 CNN 在 imagenet 图像识别比赛中一举成名。

AlexNet 同样基于层次化处理结构，先捕获基本的视觉特性，再于后面的阶段捕获更复杂的特性。它使用了 120 万张带有标签的图像进行训练，这些图像显示了一千种类别的物体。

2012 年的比赛中，AlexNet 击败了所有其他参赛算法：从比赛的指标来看，AlexNet 的错误率只有 15.3%，而它之后的最强竞争对手，错误率为 26.2%。随着 AlexNet 的胜利，深度神经网络正式成为人工智能和机器学习领域的主流方法。

然而，AlexNet 的胜利并没有打乱 Yamins 及 DiCarlo 团队的节奏。他们想要的是神经科学层面的回报。

他们想知道，如果 CNN 模仿了一个视觉系统，它能预测神经对新图像的反应吗？

为了找到答案，他们首先确定了 CNN 中人造神经元的活动如何与两只恒河猴腹侧视觉流中近 300 个部位的活动相对应。

然后他们用 CNN 预测，当猴子看到不属于训练数据集的图像时，相关大脑区域会做出何种反应。

“我们不仅得到正确的预测…… 而且发现某种解剖上的一致性，”Yamins 说。CNN 的早期、中期和晚期层对应预测了早期、中期和高级脑区的行为。也就是说，形式和功能实现配套。

Kanwisher 仍然自己在 2014 年获知该研究结果时的感受。

“这并不是说深度神经网络中的单个单元在生物物理上表现得像神经元。尽管如此，在功能匹配上还是有令人震惊的特征。” 她说。

区分声音

在 Yamins 和 DiCarlo 的研究结果公布后，研究人员开始寻找其他更好的大脑深度神经网络模型，尤其是包含灵长类视觉系统研究较少的区域的模型。

麻省理工学院神经学家 Josh McDermott 提到，“我们对听觉皮层仍然没有很好的理解，尤其是人类的大脑。” 深度学习能帮助探索大脑如何处理声音吗？

麻省理工学院的神经学家 Josh McDermott

这正是 McDermott 的目标。包括 Alexander Kell 和 Yamins 等团队成员在内，他们开始设计一种能区分语言和音乐两种类型声音的深度神经网络。

首先，他们硬编码了一个耳蜗模型来处理音频（耳蜗是内耳的声音传导器官，其工作原理已被非常详细地了解）。然后，他们将音频分类到不同的频率通道来作为卷积神经网络的输入，对 CNN 进行识别语音片段中的单词和混杂着背景噪音的音乐片段的训练。

他们希望找到一种深度神经网络结构，可以在不需要大量数据或计算资源的情况下准确地执行这些任务。

有三组结构似乎是可能的。深度神经网络的两个任务只能共享输入层，然后分成两个不同的网络。在另一个极端，任务可以共享相同的网络进行所有处理，只在输出阶段进行分割。或者它可能是介于两者之间的几十个变体之一，即网络的某些阶段是共享的，而其他阶段是不同的。

不出所料，在输入层之后有专用通道的网络比完全共享通道的网络要好。然而，一个混合网络 —— 在输入阶段之后有七个公共层，然后是两个分别为五层的独立网络 —— 几乎和完全独立的网络做得一样好。因此 McDermott 和他的同事选择了用最少的计算资源且工作得最好的混合网络。

当他们让这个混合网络与人类在这些任务中的表现进行较量时，两者非常相似。

这也与一些研究人员早先的研究结果相吻合，即非初级听觉皮层拥有着不同的区域来处理音乐和语言。

2018 年发表的一项关键测试中，该模型预测了人类受试者的大脑活动：模型的中间层预测了初级听觉皮层的反应，而更深的层预测了听觉皮层的高级区域。这些预测远远好于那些不是基于深度学习的模型。

“神经科学的目标（之一）是能够预测系统将会做什么，” McDermott 说。“这些人工神经网络让我们更接近于此。”

Kanwisher 最初怀疑深度学习对她自己的研究是否有用，但她同样受到了 McDermott 模型的启发。

Kanwisher 最为人所知的工作便与此相关：20 世纪 90 年代中后期，她的研究发现，颞下皮层中被称为纺丝状脸区（FFA）的区域是专门用来识别面孔的。当受测注视人脸图像时，FFA 明显比注视房屋等其他图像时更活跃。为什么大脑会将处理面孔的过程与处理其他物体的过程分开呢？

按照传统，回答这样的 “为什么” 这类问题对神经科学来说是相当困难的。

所以 Kanwisher 和她的博士后 Katharina Dobs 以及其他同事们向深度神经网络寻求帮助。他们使用了 AlexNet 的 “后来者”—— 一种叫做 VGG 的更深层的卷积神经网络 —— 来训练完成两种特定的任务：识别人脸和识别物体。

Alexander Kell 现在是哥伦比亚大学的博士后研究员，他和 McDermott 在麻省理工学院（MIT）合作，评估不同构筑策略在设计执行多重听觉任务的神经网络时的有效性

研究小组发现，接受过人脸识别训练的深度神经网络在识别物体方面表现不佳，反之亦然，这表明这些网络描绘的面孔和物体是不同的。

接下来，团队训练一个单一的网络来完成这两个任务。他们发现，在后期阶段，网络进行了调整，将对面孔和物体的处理分离开来。Kanwisher 说：“VGG 在后期会自发地分离更多，它没有必要在早期阶段分开训练。”

这与人类视觉系统的组织方式是一致的：分支只发生在腹侧视觉通路（外侧膝状核和 V1 和 V2 区）的下游。目前在德国吉森的李比希大学工作的 Dobs 说:“我们发现，在同时接受这两项训练的深度神经网络中，面孔和物体处理的功能专业化自发出现，就像人脑一样。”

Kanwisher 说：“最让我兴奋的是，我认为我们现在有了一种方法来回答为什么大脑是这样的。”

识别气味

更多这样的证据正从关于气味感知的研究中涌现出来。

2019 年，哥伦比亚大学的计算神经科学家 Robert Yang 和他的同事设计了一个深度神经网络来模拟果蝇的嗅觉系统。神经科学家已经能够对这个系统进行了详细的描绘。

气味处理的第一层涉及嗅觉感觉神经元，每个神经元只表示大约 50 种气味感受器中的一种。所有相同类型的感觉神经元，平均大约 10 个，延伸到处理层的下一层的单个神经簇。因为在这一层中，大脑的每一侧大约有 50 个这样的神经簇，这就在不同类型的感觉神经元和相应的神经簇之间建立了一一对应的映射。神经簇与下一层的神经元有多个随机连接，这一层被称为凯尼恩（Kenyon）层，该层有大约 2500 个神经元，每个神经元接收大约 7 个信号。凯尼恩层被认为与气味的高级表征有关。最后一层大约 20 个神经元提供了果蝇用来引导其气味相关行为的输出（Yang 提醒，没有人知道这种输出是否可以作为气味分类）。

为了验证他们是否能设计一个模拟这一过程的计算模型，Yang 和他的同事们首先创建了一个模拟气味的数据集。

气味激活神经元的方式和图像并不相同。就好比你把两张猫的图像叠加起来，逐像素相加，得到的图像可能一点也不像猫。然而，如果你把两个苹果的气味混合在一起，它还是会闻起来像苹果。“这是我们用来设计嗅觉任务的关键洞察力，”Yang 说。

他们用四层网络构建了一个深度神经网络：三层模拟果蝇的处理层和一个输出层。当 Yang 和他的同事们训练该网络分类模拟的气味，他们发现网络聚集在连接层与果蝇的大脑：第一层，第二层的一对一的映射，然后从第二层稀疏随机（7 对 1）映射到第三层。

这种相似性表明，进化论和深度神经网络都达到最优解。但 Yang 仍然对他们的成绩持谨慎态度。他说:“也许我们只是运气好，也许它没有普适性。”

测试的下一步将是进化出能够预测某些尚未被研究的动物嗅觉系统连通性的深度神经网络，然后由神经科学家加以证实。“这将为我们的理论提供更严格的检验”，Yang 说。他将于 2021 年 7 月搬到麻省理工学院。

不只是黑箱

深度神经网络常被诟病不能应用到和训练数据集相差太远的数据上，还有一个问题则是黑箱问题。

通过检查塑造它的数百万甚至数十亿的参数来解释一个深度神经网络仍是不可行的。那么，一个大脑某些部分的深度神经网络模型，不就是用另一个黑箱子代替了一个黑箱子吗？

在 Yang 看来，并不完全如此，他认为：“它仍然比大脑更容易研究。”

去年，DiCarlo 的团队发表了研究结果，对深度神经网络的不透明性和所谓的难以迁移进行了分析。研究人员使用 AlexNet 的一个版本来模拟猕猴的腹侧视觉流，并计算出人工神经元单元和猴子的 V4 区域的神经节点之间的对应关系。

然后，他们通过计算模型合成了一些图像，并预测这些图像会导致猴子神经元异常活跃。在一个实验中，当这些 “非自然” 的图像被展示给猴子时，它们 68% 的神经部位的活跃性都超出正常水平。在另一个实验中，这些图像提高了一个神经元的活动，同时抑制了附近神经元的活动。这两个结果都是由神经网络模型预测的。

这些结果表明，深度神经网络确实适用于大脑，并不是完全深不可测的。“然而，我们承认…… 关于‘理解’的许多其他概念仍有待探索，看看这些模型是否具有价值以及如何增加价值，” 他们写道。

深度神经网络和大脑在结构和性能上的类似并不一定意味着它们以相同的方式工作，在某些方面并没有显现这样的迹象。但是，这两种类型的系统可能有更多的相似之处，从而遵循某种一致的管理原则。

模型的局限

McDermott 在这些深度神经网络研究中看到了一些潜在的医学价值。如今，当人们失去听力，通常是由于耳朵的变化。大脑的听觉系统必须处理受损的输入。McDermott 说：“因此，如果我们有好的模型来了解其余的听觉系统在做什么，我们就能更好地了解如何才能真正帮助人们提高听力。”

尽管如此，McDermott 还是对深度神经网络的表现持谨慎态度。他说:“我们一直在努力尝试理解神经网络作为模型的局限性。”

Jenelle Feather 是 McDermott 实验室的一名研究生，她使用了被称为 metamers 的成对音频输入来比较神经网络和人类听觉的表现

McDermott 实验室的研究生 Jenelle Feather 和其他人集中研究了metamers，这是一种在物理上截然不同的输入信号，在系统中产生相同的表示。例如，两个音频元产生器有不同的波形，但对人来说听起来是一样的。利用听觉系统的深度神经网络模型，该团队设计了自然音频信号的元信号，这些元分子激活神经网络的不同阶段，就像音频片段一样。如果神经网络准确地模拟了人类的听觉系统，那么 metamers 的声音也应该是一样的。

但事实并非如此。在神经网络的早期阶段，人类能识别出产生与相应的音频片段相同的激活的元器。然而，这并不适用于在网络的较深阶段具有匹配激活的元数据：它们听起来像是噪音。

McDermott 说:“因此，虽然在某些情况下，这些模型在复制人类行为方面做得非常好，但它们也有非常错误的地方。”

在斯坦福大学，Yamins 正在探索在哪些情况下这些模型还不能代表大脑。例如，许多这些模型需要大量的标记数据来进行训练，而我们的大脑可以毫不费力地从一个例子中学习。人们正在努力开发能够有效学习的无监督深度神经网络。

深度神经网络还使用一种名为反向传播的算法进行学习，大多数神经科学家认为这种算法不能在真实的神经组织中工作，因为它缺乏适当的连接。

Yamins 说:“在生物学上更可行的学习规则方面，我们取得了一些重大进展。”

麻省理工学院的认知神经学家 Josh Tenenbaum 说，虽然所有这些深度神经网络模型都是货真价实的进展，但它们主要是在进行归纳或者说分类任务。然而，我们的大脑所做的远不止对事物进行分类。我们的视觉系统可以理解表面的几何形状和场景的 3D 结构，还可以推断出潜在的因果因素。例如，它可以实时推断出一棵树消失只是因为一辆汽车从它前面经过。

为了理解大脑的这种能力，曾在麻省理工学院工作、现就职于耶鲁大学的 Ilker Yildirim 与 Tenenbaum 及其同事一起建立了一种叫做高效反向图形模型的模型。

它从描述要在背景上渲染的人脸的参数开始，例如形状、纹理、光照方向、头部姿势等等。一个被称为生成模型的计算机图形程序根据参数创建一个 3D 场景，然后，经过不同阶段的处理，它会产生一个从某个位置观看的该场景的 2D 图像。利用生成模型中的 3D 和 2D 数据，研究人员训练了一个改进版的 AlexNet ，来从一个不熟悉的 2D 图像中预测 3D 场景的可能参数。

“系统学会了从结果到原因，从 2D 图像到产生它的 3D 场景，” Tenenbaum 说。

研究小组通过验证他们对恒河猴颞下皮层活动的预测来测试他们的模型。他们给猕猴看了 175 张图像，25 个人摆了 7 个姿势，并记录了 “脸斑” 的神经特征，“脸斑” 是专门用于人脸识别的视觉处理区域。他们还向深度学习网络展示了这些图像。在网络中，第一层神经元的激活代表二维图像，最后一层神经元的激活代表三维参数。

“在这个过程中，它经历了一系列的转换，似乎基本上从 2D 变成了 3D，” Tenenbaum 说。

他们发现网络的最后三层与猕猴脸部处理网络的最后三层非常吻合。

这表明，大脑使用生成模型和识别模型的组合，不仅是为了识别和表征物体，而且是为了推断场景中固有的因果结构，这一切都是在一瞬间发生的。

Tenenbaum 承认，他们的模型并不能证明大脑是这样工作的。

“但这确实为以更精细的机械论方式提问这些问题打开了大门，并激励我们持续探索。” 他说。

Refrence：

[1]https://www.quantamagazine.org/deep-neural-networks-help-to-explain-living-brains-20201028/

来源：数据实战派

“用魔法击败魔法”？一群计算神经学家正借神经网络解释大脑

相关推荐