机器学习在静息态功能磁共振成像中的应用

机器学习技术在静息态功能磁共振成像(rs-fMRI)数据分析方面已经获得了突出地位。在这里,作者对各种非监督和有监督机器学习在rs-fMRI的应用进行了总结。作者在本文中提供了rs-fMRI中机器学习方法的系统分类。基于无监督学习方法在rs-fMRI中的应用,作者根据它们是否发现了跨空间、时间或人群的主要变化模式,确定了三大类无监督学习方法。下一步,作者回顾了推动有监督被试水平(subject_level)预测成功的算法和有效的rs-fMRI特征表示的方法。其目的是从机器学习应用的角度对rs-fMRI的新兴领域进行一个高层次的概述。本文发表在Magnetic Resonance Imaging杂志。可添加微信号siyingyxf18983979082获取原文)

1.介绍
静息态功能磁共振成像(rs-fMRI)是一种广泛应用的神经影像学工具,它可以在没有任何受控实验范式的情况下,测量整个大脑的神经血氧水平依赖性(BOLD)信号的自发波动。在他们的开创性工作中,Biswal等人即使在没有明确任务的情况下,也发现初级感觉运动皮质和远距离的其他功能相关区域之间的低频自发波动也存在时间一致性,这表明静息状态活动具有神经学意义。随后的几项研究类似地报告了由一项任务共同激活的其他区域集合(如语言、运动、注意力、听觉或视觉处理等),这些区域在静息状态显示出相关的同步波动。这些自发的共同波动区域被称为静息状态网络(RSN)或内在大脑网络。此后,RSN一词指的是使用rs-fMRI发现的共享功能的大脑网络。
rs-fMRI有着巨大的潜力来促进作者对大脑功能组织的理解,以及它是如何因损伤或疾病而改变的。该领域的一个主要重点是对静息状态功能连通性(RSFC)的分析,它测量了大脑空间分布区域之间的BOLD波动的统计依赖性。在一些神经和精神疾病中发现了RSFC的紊乱,如阿尔茨海默病,自闭症,抑郁症、精神分裂症等。RSFC的动力学在过去几年中也得到了相当大的关注,而rs-fMRI的一个关键挑战是开发适当的工具来捕捉这种RS活动的全部程度。rs-fMRI能捕捉到丰富的内在心理状态或自发思维,如果有合适的工具,就有可能产生关于大脑疾病本质的新的神经科学见解。
rs-fMRI数据的研究具有高度的交叉性,主要受机器学习、信号处理和图论等领域的影响。机器学习方法通常以数据驱动的方式提供了丰富的rs-fMRI特征rs-fMRI中的无监督学习方法主要集中在了解健康大脑的功能组织及其动力学。例如,矩阵分解或聚类等方法可以同时揭示大脑中的多个功能网络,也可以揭示动态功能连接的潜在结构。
另一方面,监督学习技术可以利用RSFC进行个体水平的预测。大量的研究致力于使用rs-fMRI对患者和对照组进行分类,或者预测疾病预后(disease prognosis)和指导治疗。另一类研究探讨了个体在认知特征上的差异在多大程度上可以通过RSFC的差异来预测,产生了有希望的结果。预测方法也可以用来解决神经科学中感兴趣的研究问题。例如,RSFC是可遗传的吗?这样的问题可以在一个预测框架内表述出来,以检验新的假设。
从映射功能网络到进行个体水平的预测,机器学习在rs-fMRI中的应用意义深远。本文旨在以简明的方式介绍机器学习在从rs-fMRI数据中产生开创性见解方面所起的作用,并描述机器学习在rs-fMRI中应用的发展。作者将介绍rs-fMRI中机器学习的关键思想和应用领域,而不是深入研究机器学习算法本身的精确技术差别。根据该领域的最新发展和潜力,作者讨论了当前的挑战和未来工作的前景。

1.1静息态功能磁共振成像:历史视角

直到21世纪初,任务功能磁共振成像(task fMRI)一直是研究大脑不同区域功能的主要神经成像工具,以及它们如何协调以产生认知功能的不同心理表征。Biswal等人在已知的皮层网络中发现了相关的自发波动。大量的后续研究已经证实了rs-fMRI是探索大脑功能结构的有用工具。在过去的十年里,采用静息态范式的研究规模空前扩大。这些方案比其他基于任务的实验简单得多,能够对健康大脑的功能连接及其在疾病中的破坏提供关键的见解。静息状态也很有吸引力,因为它允许多个部位的协作,不像任务功能磁共振成像那样容易受到局部实验环境的干扰。这使得网络分析达到了前所未有的规模。
传统上,rs-fMRI研究的重点是通过基于种子的分析(SBA)来识别空间上有区别但功能上相关的大脑区域。该方法先选择种子体素或感兴趣区域,然后将每个种子的时间序列与来自所有脑体素的时间序列相关联,生成一系列相关图。SBA虽然简单且易于解释,但由于其很大程度上取决于人工种子选择,并且在其最简单的形式下,一次只能显示一个特定的功能系统,因此受到限制。
像独立成分分析(ICA)这样的分解方法,在21世纪初成为种子相关分析的一种非常有前途的替代方法。其次是其他无监督学习技术,如聚类。与基于种子的方法相比,这种方法探索与种子相关的网络体素(如运动或视觉功能连接图),这些基于分解或聚类的新的无模型(model-free)方法同时在整个大脑中探索静息态网络(RSN),用于个体或群体水平的分析。不管使用何种分析工具,所有的研究基本上都集中在报告了大脑中多个稳定的静息态网络,如:初级感觉运动网络、初级视觉网络、额顶叶注意网络和研究得很好的默认网络。默认网络中的区域,如后扣带皮质、楔前叶、腹侧和背侧内侧前额叶皮质,在静息状态下表现出活动水平的增加,这表明该网络代表了人脑的基本功能或默认功能。默认网络引起了rs-fMRI社区的极大兴趣,因此,一些研究探索了各种神经和精神疾病(包括自闭症、精神分裂症和阿尔茨海默氏症)中大脑默认网络(DMN)静息状态连接的中断。
尽管rs-fMRI技术获得了广泛的成功和普及,但静息状态下大脑持续自发波动的原因仍不清楚。有几项研究探讨了静息状态下的相干起伏是神经元起源的,还是仅仅是心脏或呼吸周期引起的混叠或生理伪影的表现。随着时间的推移,支持基于BOLD的静息状态功能连接的神经元基础证据已经从多个互补的来源积累起来。这包括:
(a)在独立受试者队列中观察到的静息状态功能连通性(RSFC)模式的再现性;
(b)在没有混叠和与噪声成分明显分离的情况下具有持续性;
(c)其与已知功能网络的相似性;
(d)与解剖学的一致性;
(e)它与大脑皮层活动的关系用其他方法研究;
(f)它在疾病中的系统变化。

1.2机器学习在rs-fMRI中的应用

绝大多数关于rs-fMRI机器学习的文献都致力于无监督的学习方法。与任务驱动的研究不同,模拟静息状态的活动并不简单,因为没有可控的刺激来驱动这些波动。因此,用于描述在基于任务的fMRI中观察到的时空模式的分析方法通常不适用于rs-fMRI(图1)。鉴于功能磁共振成像数据的高维特性,早期的分析方法侧重于分解或聚类技术,以获得更好的时空数据特征。像ICA这样的无监督学习方法催化了静息状态网络或RSN的发现。随后,静息状态脑图绘制的领域扩大了,主要目标是创建脑分组,即描述大脑内部功能一致的空间分区的体素(或在表面表示的情况下的顶点)的最佳分组。这些分区通过提供探索大脑连通性和功能的区域参考图,有助于理解人类的功能组织。此外,它们还作为一种流行的数据简化技术用于统计分析或有监督的机器学习。
图1.基于传统种子的分析方法
最近,从大脑网络的静态表征出发,研究表明,在典型的磁共振功能扫描过程中,RSFC表现出有意义的变化。由于静止状态下的大脑活动在很大程度上是不受控制的,这使得网络动力学更加有趣。使用无监督的模式发现方法,静息状态模式已经被证明在离散的循环功能连接“状态”之间转换,代表不同的心理过程。在最简单和最常见的情况下,动态功能连接性使用滑动窗口相关性来表示。在这种方法中,在固定长度的时间窗口中估计功能连通性,随后通过不同的时间步长移动该时间窗口以产生相关矩阵序列。然后,通过分解或聚类,可以从这个序列中识别重复出现的相关模式(图2)。这种功能连接的动态性质为理解大脑中不同连接的灵活性开辟了新的途径,因为它们与行为动力学相关,具有潜在的临床应用价值。
图2.机器学习方法在静息态fMRI中的应用
另一个,也许在临床上更有前景的机器学习在rs-fMRI中的应用在2000年末得到了扩展。这种新的应用类别利用监督机器学习进行个体水平预测。静息态活动的协方差结构,更普遍地被称为“连接体”,作为疾病的敏感生物标志物,在神经科学领域引起了极大的兴趣。研究进一步表明,一个人的连接体是独特和可靠的,类似于指纹。机器学习可以利用这些基于神经成像的生物标志物来构建诊断或预测工具。这些模型的可视化和解释可以补充统计分析,为大脑疾病中静息状态模式的功能障碍提供新的见解。鉴于深度学习在当今时代的突出地位,几种新的基于神经网络的方法也已经出现,用于分析rs-fMRI数据。这些方法中的大多数都是针对单个受试者水平预测的连接体特征提取。
为了组织这一迅速发展的领域的工作,作者将机器学习方法按方法和应用重点细分为不同的类。作者首先根据无监督学习方法的主要关注点是发现(a)反映在连贯波动中的潜在空间组织,(b)恢复状态连通性的时间动态结构,还有(c)被试者之间比较的群体水平结构。接下来,作者继续讨论有监督学习。作者通过讨论这些模型中使用的相关rs-fMRI特征来组织这一部分,接着讨论常用的训练算法,最后讨论rs-fMRI在执行预测方面显示出前景的各种应用领域。

2.无监督学习方法

无监督学习的主要目标是发现潜在的表示,并解开丰富的、未标记的数据中变化的解释因素。这些学习方法没有受到任何形式的目标输出(或标签)的监督来指导学习过程。相反,他们专注于学习数据中的结构,以便从噪声中提取相关信号。下面,作者回顾一些重要的无监督学习方法:

2.1聚类

给定数据点{X1,…,Xn},聚类的目标是将数据划分成K个不相交的组{C1,…,CK}。不同的聚类算法在它们的聚类目标方面是不同的,即最大化聚类内相似性和聚类间的差异性(图3)。
图3.用于rs-fMRI分析的无监督学习方法的分类
2.1.1 K-means
K-means聚类是目前最流行的数据分割学习算法。该算法旨在最小化聚类内方差。在形式上,这对应于下面的聚类目标:
其中nj表示集合Cj的基数(cardinality)。这个优化问题是使用迭代算法来解决的,该算法被称为Lloyd算法。该算法从聚类质心的初始估计开始,并通过(a)将每个数据分配给其最近的聚类,以及(b)基于这些新的分配更新聚类质心来迭代地细化它们。
如果您对脑影像数据处理感兴趣,欢迎浏览思影科技课程及服务,特别是机器学习可添加微信号siyingyxf或18983979082咨询):

第十三届脑影像机器学习班(南京,12.13-18)

第十一届磁共振脑影像结构班(南京,1.12-17)

第三十六届磁共振脑影像基础班(南京,2021.1.6-11)

第十五届DTI数据处理班(南京,12.26-31)

第十九届磁共振脑网络班(南京,1.18-23)

第七届任务态fMRI专题班(重庆,1.14-19)

第三十五届磁共振脑影像基础班(重庆,11.30-12.5)

第三十七届磁共振脑影像基础班(重庆,1.23-28)

思影科技功能磁共振(fMRI)数据处理业务
思影科技弥散加权成像(DWI/dMRI)数据处理
思影科技脑结构磁共振成像数据处理业务(T1)
思影科技啮齿类动物(大小鼠)神经影像数据处理业务
思影数据处理业务三:ASL数据处理
思影科技脑影像机器学习数据处理业务介绍

高斯混合模型的最大似然估计通常使用期望最大化算法获得。

2.1.4基于图的聚类
基于图的聚类形成了另一种基于相似性的数据划分方法,可以使用图来表示。给定一个有顶点集V和边集E的加权无向图G = {V,E},大多数图分割方法都优化了一个分离度量,如归一化分割(Ncut)。边权重w(i,j)表示顶点i和j之间的相似性函数。Ncut计算连接两个分区的总边权重,并通过它们与图中所有节点的加权连接对其进行归一化。一个双向规范化分割准则通过同时最小化簇间相似度和最大化簇内相似度,将G划分为不相交的分区A和B。该客观标准表示为:
然而,直接最小化这个目标是一个NP-hard(非确定性多项式)问题。谱聚类算法通常可以解决这个问题。这种方法可以进一步扩展,以获得图的K路划分。与k均值聚类或层次聚类相比,基于图的聚类方法通常对异常值更具弹性(图4)。

图4.流行的聚类算法的说明:K-means聚类将数据空间划分为Voronoi单元,其中每个观察值都被分配给质心最近的聚类(图中标记为红色)。高斯假设每个聚类都是从多元高斯分布中采样的,并估计这些概率密度,以生成不同聚类的观测值的概率分配。分层聚类生成嵌套分区,其中分区基于连接标准迭代合并。基于图的聚类划分了数据的图表示例如,连接不同聚类的边的数量是最小的。

2.2潜在变量模型

2.2.1分解
基于分解或因式分解的方法假设观察到的数据可以分解为更简单的矩阵的乘积,通常在这些单独的矩阵上强加特定的结构或稀疏性。形式上,给定数据点X = [x1,…,xn]利用xi∈ RD,线性分解技术寻找基集合W = [w1,…,wK]使得W所跨越的线性空间紧密重构X。
这里,每个数据点xi由基集合W的唯一系数zi∈RK表征。典型地,K < D,因此分解相当于降维。在矩阵表示法中,目标是找到W和Z,使得X ≈ WZ,其中Z = [z1,…,zn]。这个不适定问题( ill-posed)一般通过约束W或z的结构来解决。
2.2.1.1主成分分析
主成分分析(PCA)是一种基于线性投影并广泛用于降维的技术。主成分分析的目标是找到一个正交基W,使投影数据Z = WTX捕获的方差最大化。这相当于最小化基于低维表示数据点Z的重建误差( reconstruction error)。从数学上讲,这相当于解决了下面的优化问题:

其中F表示Frobenius范数,而

表示D×K维正交矩阵的集合。

2.2.1.2独立成分分析
独立成分分析(ICA)是一种流行的方法,用于将数据分解为统计独立成分的线性组合。在ICA术语中,W通常被称为混合矩阵,而Z包括源信号。在上述形式中,ICA假设源,即Z的行在统计上是独立的。使用“白化”或“解混”矩阵U恢复源信号,其中U = W-1.由于X = WZ,作者获得了Z = UX流行的算法,因此通过估计U来恢复源,使得UX的成分在统计上是独立的。常见的独立成分分析算法通过最小化源之间的互信息或最大化它们的非高斯性来模拟独立性。独立成分分析通常采用满秩矩阵分解,并且通常在主成分分析之前进行降维。
2.2.1.3稀疏字典学习
稀疏字典学习被描述为线性分解问题,类似于ICA/PCA,但在组件Z上具有稀疏约束。这将导致以下形式的非凸优化问题:

在大多数实际应用中,这个优化问题通过用L1范数代替L0范数来缓解。

2.2.1.4非负矩阵分解(NMF)
非负矩阵分解(NMF)是另一种降维技术,它寻求数据矩阵X的低秩分解,对成分WZ具有非负约束。通常,这对应于解决以下优化:
2.2.2隐马尔可夫模型
隐马尔可夫模型(HMM)是一类针对序列数据的无监督学习方法。它们被用来模拟一个马尔可夫过程,其中观测序列{x1,…,xT}被认为是从一系列潜在的隐藏状态{s1,…,sT},可以是离散的。在一个有K个状态的隐马尔可夫模型中,假设si可以取{1,…,K} ,HMM的参数是通过对完整的数据最大化似然学习来的:
这里,P(s1|s0)表示初始状态分布π。状态转移概率由元素为Ti,j = P(st = j| st-1 =i)的转移矩阵T定义。条件P(xt|st = k,θ)由发射概率E[k,xt]捕获。因此,该概率模型的参数θ为{π,T,E}。这种最大似然估计问题是利用期望最大化算法的一种特殊情况,即Baum-Welch算法来有效地解决的。

2.3非线性嵌入

2.3.1局部线性嵌入
LLE将数据投影到降维空间,同时保留数据点及其邻域之间的局部距离。LLE算法分两步进行。首先,每个输入Xi,i∈{ 1,…,n}近似为其K个最近邻的线性组合。通过最小化重建误差获得线性子空间W,即
这里,如果Xj不是Xi的K近邻之一,Wij = 0。在第二步中,通过最小化嵌入成本函数来获得低维嵌入Yi,
在后一种优化中,W保持固定在Wopt,而Yi是优化的。
2.3.2自编码器
3.无监督学习在rs-fMRI的应用
无监督的机器学习方法已被证明有希望用于分析具有复杂结构的高维数据,使其与rs-fMRI更加相关。rs-fMRI中的许多无监督学习方法旨在将大脑分成离散的功能子单元,类似于地图集。这些分割是由功能数据驱动的,不像Broadmann图谱那样使用细胞结构,也不像自动解剖标记(AAL)图谱那样使用宏观解剖特征。第二类探索研究大脑网络动力学。无监督学习被应用于研究动态功能连接体,并取得了令人满意的结果。最后,无监督学习的第三个应用侧重于学习RSFC的潜在低维表示,以对一群受试者进行分析。作者将在下面讨论这些具有挑战性的应用领域的方法。
3.1发现具有相干起伏的空间模式
绘制功能不同的神经解剖结构的边界,或识别大脑中功能耦合区域的簇是神经科学的一个主要目标。磁共振成像和机器学习方法为实现这一崇高目标提供了一个有前途的组合。
在rs-fMRI中,典型的方法是利用ICA等技术将4D-fMRI数据分解成不同空间模式的线性叠加,这些模式显示出连贯的时间动态。聚类是一种非监督学习方法,用于分析rs-fMRI数据。与ICA或字典学习不同,聚类用于划分大脑表面(或体积)形成不相交的功能网络。在这一阶段,区分两种稍有不同的聚类应用是很重要的,因为它们有时需要不同的约束:一个方向侧重于识别通常在空间上分布的功能网络,而另一个方向则用于划分大脑区域。后一种应用旨在构建功能性神经解剖的局部区域的地图集,就像自动解剖标记(AAL)等标准地图集如何描绘宏观解剖区域。在聚类应用中,一个重要的设计决策是用来度量不同体素(或顶点)之间的差异性的距离函数。在rs-fMRI的情况下,这个距离函数要么在体素处的原始时间序列上计算,要么在它们的连通性轮廓之间计算。虽然这两个距离的动机是相同的功能一致性思想,但在使用任何一个标准进行优化的分组中发现了某些差异。
几乎所有这些方法的一个重要要求是预先选择簇/组件的数量。这些通常是通过交叉验证或统计来确定的,这些统计数据反映了不同尺度下分解/分割的质量、稳定性或再现性。
3.1.1独立成分分析
ICA是rs-fMRI最早和应用最广泛的分析工具之一,它推动了对大脑内在网络的一些关键的神经科学见解。当应用于rs-fMRI时,大脑活动表现为不同的空间模式或地图的线性叠加,每一张地图都遵循其特有的时间进程(图5)。这些空间地图可以反映出一个连贯的功能系统或噪声,并且可以使用几个标准来自动区分它们。这种隔离噪声源的能力使得ICA特别有吸引力。在rs-fMRI的早期,几项研究表明ICA空间图和任务激活研究中已知的皮层功能网络有显著的相似性。当典型的独立成分分析模型是无噪声的并且假设唯一的随机性是在信号源中时,人们提出了几种独立成分分析的变体来模拟观测信号中的加性噪声。贝克曼等人提出了一种概率ICA(PICA)模型来提取rs-fMRI数据的连通结构。在加性噪声破坏和源之间统计独立性的情况下,PICA对线性瞬时混合过程建模。De Luca等人结果表明,PICA能够可靠地区分rsn和伪影。这两部作品在多个被试的休息状态模式上表现出高度一致性。虽然没有标准来验证ICA模式,或任何聚类算法,可重复性或可靠性通常用于定量评估。最近,Khorshidi等人提出了一种基于ICA的fMRI自动去噪策略,称为FIX“FMRIB's ICA-based-X-noiseifier”。作者使用人工标注训练了一个分类器,以基于不同的空间/时间特征来标记事实成分。这些成分可以表示各种结构化噪声源,一旦识别出来,它们可以从数据中减去或回归,以产生干净的信号。

图5.应用示意图(第3.1节):在分解中,原始功能磁共振成像数据表示为空间模式及其相关时间序列的线性组合-独立成分分析,空间地图的独立性得到优化,而在稀疏字典学习中,地图的稀疏性得到鼓励。在聚类中,体素的时间序列或连通性指纹被聚类,以将体素分配给不同的功能网络。

ICA还可以扩展到人口研究中的群体推理。到目前为止,组独立成分分析是最广泛使用的策略,在实施独立成分分析之前,多组受试者功能磁共振成像数据沿时间维度串联。然后,通过反向投影组混合矩阵,或者使用双重回归方法,可以从该组分解中获得个体水平的独立成分分析图。最近,杜等引入了一种组信息引导的独立成分分析方法,以保持单个独立成分分析的统计独立性,其中组独立成分分析用于约束相应的被试水平独立成分分析。Varoquaux等人提出了一个稳健的群体水平独立成分分析模型,以方便群体间独立成分分析的比较。他们引入了一个生成框架来对独立成分分析模式中的两个层次的方差进行建模,在组层次和被试层次,类似于混合效应模型的多变量版本。IC估计程序,称为标准独立成分分析。使用典型相关分析来识别受试者之间的共同IC模式的联合子空间,并产生能够很好地代表群体的IC。

或者,也可以计算个体特定的独立成分分析图,然后在它们之间建立对应关系,以生成群体推理;然而,这种方法受到了限制,因为不同受试者之间的源分离可能非常不同,例如,由于碎片化。
尽管独立成分分析及其扩展已被功能磁共振成像社区广泛使用,但重要的是要承认其局限性。独立成分分析对非高斯数据的线性表示进行建模。线性变换能否充分捕捉独立潜在源(independent latent sources)和观察到的高维功能磁共振成像数据之间的关系是不确定的,也可能是不现实的。与流行的主成分分析不同,独立成分分析不提供其成分的顺序或能量,这使得无法区分强源和弱源。这也使可复制性分析变得复杂。空间地图可以任意顺序表达。提取有意义的IC有时也需要手动选择程序,这可能是低效或主观的。在理想情况下,每个单独的成分代表一个生理上有意义的激活模式或噪声。然而,这对于rs-fMRI来说可能是一个不切实际的假设。此外,由于独立成分分析假设源的非高斯性,高斯生理噪声会污染提取的成分。此外,由于功能磁共振成像的高维数,在应用独立成分分析之前,分析通常进行基于主成分分析的降维。主成分分析从数据协方差矩阵的顶部特征向量计算最高方差的不相关线性变换(从而解释数据中最大的可变性)。虽然这一步骤有助于消除观察噪声,但它也可能导致信号信息的丢失,而这些信息对于后续分析可能至关重要。尽管ICA针对独立性进行了优化,但并不保证独立性。基于对大脑内部功能整合的研究,从神经科学的角度来看,功能单位之间独立性的假设本身就可能受到质疑。几篇论文表明,当空间模式稀疏,重叠可以忽略或很少时,独立成分分析特别有效。这暗示了独立成分分析的成功是由成分的稀疏性而不是它们的独立性驱动的可能性。根据这些思路,道贝希和他的同事声称,优化空间模式稀疏性的功能磁共振成像表示比优化独立性的功能磁共振成像表示更有效。
3.1.2学习稀疏空间地图
稀疏字典学习是另一种构建观测数据简洁表示的流行框架。Varoquaux等人采用字典学习框架从静息状态功能磁共振成像时间序列中分割功能区域。他们的方法通过允许特定被试的空间地图不同于人口级别的地图集,来说明功能边界中被试间的可变性。具体地说,它们优化了损失函数,该损失函数包括测量数据及其因式分解之间的近似误差的残差项、惩罚个体主体空间图与组级潜在图的大偏差的代价项、以及促进稀疏性的正则化项。除了稀疏性之外,它们还强加了一个平滑性约束,以便每个字典中的主要模式在空间上是连续的,从而构建一个定义明确的分组。为了防止由于平滑度约束而导致的边缘模糊,亚伯拉罕等人在这个多被试字典学习框架内(multi-subject dictionary learning framework)提出一个全变分正则化。在解释测试数据时,这种方法显示出比竞争方法如独立分量分析和聚类更好的结构化分组。同样,吕等人提出一种策略,通过将时间序列分解成基础字典及其相应的稀疏系数,学习个体受试者全脑功能磁共振成像信号的稀疏表示。这里,字典代表功能网络的共同激活模式,系数代表相关的空间地图。实验显示,与已知在实践中产生空间不重叠成分的独立分量分析相比,在提取的功能网络中存在高度的空间重叠。
3.1.3 k-means聚类和混合模型
k-means聚类或混合模型常用于功能磁共振成像数据的空间分割。体素之间的相似性可以通过关联它们的原始时间序列或连通性轮廓来定义。欧几里德距离度量也被用于时间序列的频谱特征。
K-means聚类为人脑的功能组织提供了一些新的见解。它揭示了大脑皮层自然分成两个互补的系统,内部驱动的“内在”系统和刺激驱动的“外在”系统;为区域网络的等级组织提供了证据;并且暴露了对共同变化的静息状态波动的解剖学贡献。
高兰等人提出了一种高斯混合模型用于功能磁共振成像信号的聚类。这里,每个体素处的信号被建模为N个高斯密度的加权和,其中N确定了假设的功能网络的数量和反映分配给不同网络的概率的权重。大规模的系统在几个分辨率下被探索,揭示了功能组织的内在层次。Yeo等人使用对1000名受试者的rs-fMRI测量来估计大规模分布式皮层网络的组织。他们使用混合模型来识别具有相似皮质(similar corticocortical)连接特征的体素簇。从稳定性分析中选择聚类数,并以7个网络的粗略分辨率和17个网络的精细尺度进行分组。在数据样本中获得了高度的可复制性,表明这些网络可以作为功能表征的可靠参考图。
3.1.4 识别分层空间组织
几项研究为大脑中功能网络的分级组织提供了证据。因此,层次凝聚聚类(HAC)为分割rs-fMRI数据和探索这种潜在的层次结构提供了一个自然的工具。聚类在静息态磁共振成像中的最早应用是基于HAC。这项技术在很大程度上证明了从rs-fMRI数据中提取RSN的聚类可行性。HAC最近的应用集中在为下游分析定义全脑分组。例如,通过仅考虑局部邻域作为合并的潜在候选对象,可以小的分割框架中(in parcels)中加强空间连续性。
分层聚类的一个优点是,与k-means聚类不同,它不需要知道聚类的数量,并且是完全确定的。然而,一旦聚类树形成,树图必须在最能表征“自然”聚类的水平上被分割。这可以基于连接不一致性标准、受试者之间的一致性或高级经验知识来确定。
虽然层次聚类是一种很有前途的rs-fMRI分析方法,但它有一些固有的局限性。它通常依赖于先验降维,例如通过使用解剖模板,这可以偏置最终的分组。这是一种贪婪的策略,早期的错误划分在后续迭代中无法纠正。单连接标准(Single-linkage criterion)在实践中可能不太适用,因为它基于最近邻距离合并分区,因此对有噪声的静息状态信号并不具有固有的鲁棒性。此外,不同的度量标准通常会优化集群的不同属性。例如,单连接集群鼓励扩展集群,而全连接集群则促进紧凑性。这使得距离度量的先验选择有些随意。
3.1.5 基于图的聚类
功能磁共振成像数据可以自然地以图形的形式表示。这里,节点代表体素,边代表连接强度,通常由体素时间序列之间或连接图之间的相关系数来测。通常,在边上应用阈值来限制图的复杂性。图形分割方法,如基于Ncut(归一化分割)标准的方法,已被广泛用于推导全脑分割。群体水平的分组通常通过两个阶段的过程得出:首先,对单个图进行聚类以提取功能相关的区域,然后是第二阶段,对表征单个聚类图一致性的群体水平的图进行聚类。通过将连通性图约束到局部邻域,或者通过使用形状先验(shape priors),可以容易地实现空间连续性。从这个协议出发,沈等人提出一种分组聚类方法,该方法在单个阶段联合优化个体和分组,并在没有任何显式约束的情况下产生空间平滑的组分组。
功能磁共振成像Ncut标准的一个缺点是它偏向于创建大小一致的簇,而实际上功能区显示出很大的大小差异。图的构建本身涉及到可能影响聚类性能的任意决策,例如选择一个阈值来限制图形边缘,或者选择邻域来加强空间连通性(表1)。

(休息片刻,广告之后,马上回来,点击阅览):

第十三届脑影像机器学习班(南京,12.13-18)

3.1.6 评论
3.1.6.1 基于交替的网络连接表示方法
一些论文对聚类/分解和基于边界检测的网络分割方法进行了区分。在rs-fMRI文献中,已经提出了几种基于非学习的分割方法,这些方法利用传统的图像分割算法来识别基于RSFC突变的功能区域。聚类算法不要求空间连续性,而基于边界的方法隐含地要求空间连续性。相比之下,基于边界的方法无法表示长期的功能关联,并且可能无法产生像无监督学习方法那样在连接上同质的小的聚合(parcels)。这些方法的混合可以产生更好的表示大脑网络组织的模型。谢弗等人最近用马尔可夫随机场模型探索了这个方向。与几个交替梯度和基于学习的方案相比,生成的地块显示出优异的同质性。此外,以其他方式补充RSFC,可以为划定区域边界提供确凿的、或许是补充性的信息。最近Glasser等人通过开发一种产生大脑分割的多模态方法来解决这个问题。作者提出了一种半自动方法,该方法将有监督的机器学习与基于多模态指纹(结构、功能、连通性和地形)的区域分割的手动标注相结合。这种方法有助于实现精确绘制人脑功能图的目标。
3.1.6.2  受试者与人群水平分组
rs-fMRI文献中的重要工作是致力于确定人群平均分组。潜在的假设是,功能连接图显示了跨被试的相似模式,并且这些全局划分反映了共同的组织原则。然而,个体水平的分组可能会产生更敏感的连接特征,用于研究健康和疾病网络。这项工作的一个主要挑战是将个人层面的空间地图与人口模板相匹配,以建立跨主体的对应关系。获得具有群组对应的特定被试网络的常见方法通常包括反投影和双重回归,或者无监督学习中的分层先验。虽然许多研究已经开发了特定主题的分组,但是这种被试间可变性对于网络分析的重要性直到最近才被讨论。孔等使用多阶段分层贝叶斯模型开发了高质量的特定受试者分组,并表明特定受试者功能地形图的可变性可以预测行为测量。最近,Salehi等人使用了一种新的基于K-medoids聚类的分组方案。表明单独的个体水平的分组可以预测个体的性别。这些研究提出了一个有趣的想法,即被试水平的网络组织,即体素到网络的分配可以捕捉个体固有的概念,就像连接强度一样。
3.1.6.3  有没有通用的‘金标准’脑图集?
当考虑一系列不同的方法、算法或模式时,在不同的粒度级别上存在过多的不同的大脑分区。到目前为止,还没有统一的框架来推理这些大脑细胞。可以使用几个分类来描述这些分组的生成,例如机器学习或边界检测、分解或聚类、多模态或单峰。即使在一大类聚类方法中,也不可能找到一种算法能始终如一地优于一组简单的、理想的划分属性。已经出现了几种用于比较不同分组的评估标准,暴露了工作中固有的权衡。阿尔斯兰等人根据来自人类连接体项目(HCP)的静息数据,对不同方法下的几个分组进行了广泛的比较。通过独立评估,他们得出结论,在所有评估指标中,没有一个分组是始终如一的优势。最近萨莱希等人表明,不同的功能条件,如任务或休息,产生可重复的不同分组,从而质疑最佳分组的存在,甚至在个人层面。这些新颖的研究需要重新思考大脑地图的最终目标。几项研究反映了这样一种观点,即大脑没有最佳的功能分区,而只是一系列有意义的大脑分区。也许,大脑绘图不应该像布罗德曼区域那样,以识别普遍意义上的功能子单元为目标。相反,人脑绘图的目标应该重新制定为揭示一致的功能描述,从而能够对大脑网络进行可靠和有意义的研究。

3.1.6.4 分解与聚类的比较。
在使用分解和聚类提取的功能连贯模式中已经观察到高度的收敛。分解技术允许对数据进行软划分,因此可以产生空间重叠的网络。这些模型可能是大脑网络的更自然的表示,例如,高度集成的区域,如网络“中枢”,并且可以同时服务于多个功能系统。尽管有可能对生成的地图进行阈值划分和重新标记,以产生空间上连续的大脑分区,但这些技术并不是自然设计来生成不相交的分区的。相比之下,聚类技术会自动将体素硬分配给不同的大脑网络。空间约束可以很容易地合并到不同的聚类算法中,以生成连续的小的集合(contiguous parcels)。分解模型可以适应变化的数据分布,而聚类解决方案由于严格的聚类目标而允许更少的灵活性。例如,k-means聚类函数寻找捕获球形簇(spherical clusters)。虽然这些方法之间仍缺乏彻底的比较,但一些研究已经确定了选择两种技术进行分组之间的权衡。亚伯拉罕等人在两个评估指标上比较了聚类方法与组独立成分分析和字典学习:稳定性,反映在独立数据的体素分配的再现性上,以及数据保真度,由独立数据的解释方差获得。他们观察到稳定性和保真度之间的权衡:虽然聚类模型产生稳定区域,但不能很好地解释测试数据,但线性分解模型可以很好地解释测试数据,但代价是稳定性降低。

3.2.发现动态功能连接的模式

无监督学习也被应用于研究静态网络中的时间组织或动态重构模式。这些研究通常基于两个交替的假设,即(a)离散“连接状态”之间的动态(窗口)功能连接循环,或者(b)任何时候的功能连接都可以表示为潜在“连接状态”的组合。第一个假设使用基于聚类的方法或生成模型(如HMMs)进行检验,而第二个假设使用分解技术进行建模。一旦在人群中确定了稳定状态,前一种方法允许作者估计所有受试者在每个状态下花费的时间比例。这个量,称为停留时间或状态占用,显示了个体之间有意义的变化。重要的是要注意到,在所有这些方法中,RSN或空间模式被假设为随着时间的推移而稳定,并且时间一致性随时间而变化。
3.2.1聚类
一些研究已经发现了通过窗口相关矩阵的k-means聚类的循环动态功能连接模式,称为“状态”。与这些重复状态相关联的功能梯度显示出明显不同于静态功能梯度(图6),表明网络动力学为静息大脑提供了新的特征。在精神分裂症、双相情感障碍和类似精神病的体验域中,健康对照和患者群体之间的多种状态的停留时间存在显著差异。
图6.应用示意图(第3.2节)。为了便于说明,数据中假设了三种连接状态。
Abrol等人进行了一项大规模研究,使用标准的k-means以及更灵活、限制更宽松的(soft)k-means状态估计算法来表征大脑状态的可复制性。实验显示了大多数状态的再现性,以及它们的汇总度量,例如平均停留时间和转移概率等。独立人群样本的研究表明,虽然这些研究证实了反复出现的FC状态的存在,但这些状态的行为联系仍然未知。在一个有趣的作品中,王等人使用k-均值聚类识别了两个稳定的动态FC状态,这两个状态分别与高唤醒和低唤醒的内部状态相对应。这表明RSFC波动是行为状态依赖的,并给出对RSFC的异质性和动态性质的解释。

3.2.2状态转移动力学的马尔可夫模型
HMM是另一个有价值的工具来询问循环的功能连接模式。状态的概念仍然类似于上文针对集群描述的“FC状态”;然而,特征和估计是截然不同的。与使用滑动窗口来计算动态功能函数模式的聚类不同,HMMs直接对rs-fMRI时间序列建模。因此,他们提供了一个有希望的替代方案来克服滑动窗口在表征功能函数变化方面的统计限制。
通过采用HMM,出现了一些有趣的结果。Vidaurre等人发现不同状态的相对占用率是与行为特征和遗传相关联的特定受试者的量度。通过马尔可夫模型,状态之间的转换被揭示为一个非随机序列,它本身是分层组织的。最近,使用HMMs建模的网络动力学被证明能够区分轻度认知障碍患者和对照组,从而表明它们在临床领域的实用性。
3.2.3寻找跨时间点的潜在连接模式
理解RSFC动力学的分解技术与第2.2.1节中描述的方法有相同的味道:通过潜在因素解释数据;然而,在这种情况下,兴趣的变化是跨时间的。矩阵分解技术的采用暴露了(exposes)来自窗口相关矩阵的FC模式的基本集合。使用各种分解方法对动态功能连接(Dynamic FC)进行了表征,包括:主成分分析,奇异值分解,非负矩阵分解和稀疏字典学习。
这里,分解方法不同于聚类或HMMs,因为它们将每个dFC矩阵与多个潜在因素而不是单个组件相关联。为了比较这些替代方法,莱昂纳迪等人实现了广义矩阵分解,称为kSVD。这种因式分解概括了受变量约束的k均值聚类和主成分分析。本研究中的再现性分析表明,dFC更好地表征为多个重叠的FC模式(表2)。
dFC的分解揭示了健康对照和PTSD或多发性硬化症患者之间以及儿童期和年轻成年期之间网络动力学的新变化。

3.3探究被试间差异的潜在因素

无监督学习也可以探究在人口上功能连接差异的潜在解释因素。作者在这里发现了两个应用:(1)学习FC矩阵的低维嵌入,用于后续的监督学习;(2)学习群体分组,仅基于FC区分表型。

3.3.1降维
Rs-fMRI分析受到维数灾难的困扰,即高维数据稀疏性增加的现象。常用的数据特性,如区域对之间的FC,随着分区区域的数量而增加。此外,典型功能磁共振成像研究中的样本量通常为数十或数百个数量级,这使得从原始高维数据中学习可归纳的模式变得更加困难(图7)。为了克服这一点,线性分解方法,如PCA或稀疏字典学习已被广泛应用于功能连接数据的降维。
几种非线性嵌入方法,如局部线性嵌入(LLE)或自动编码器(AEs)也引起了人们的注意。例如,LLE嵌入已被用于rs-fMRI研究,以改善监督年龄回归的预测,或用于低维聚类以区分精神分裂症患者和对照组。AEs是一种基于神经网络的替代方法,用于通过非线性输入变换生成简化的特征集。在一些研究中,它们已被用于RSFC特征降维。为了将学习引向支持泛化的参数空间,AEs也可用于监督神经网络训练的预训练阶段。这种技术被证明:如使用RSFC提高自闭症和精神分裂症的分类性能。
图7.应用示意图(第3.3节)。为了说明,将高维连接体降维为3个潜在成分。
3.3.2聚类异质性疾病
聚类可以暴露群体中显示相似功能区的子群体。使用无监督最大边缘聚类,曾等证明了聚类可以与疾病类别(v/s控制)相关联,从而产生高分类精度。最近Drysdale等人基于RSFC发现了新的抑郁症神经生理学亚型。使用一种聚集的分层程序,他们确定了功能障碍连接的聚集模式,其中尽管没有外部监督,聚集显示了与不同临床症状特征的联系。一些精神疾病,如抑郁症、精神分裂症和自闭症谱系障碍,被认为是高度异质性的,临床表现差异很大。基于疾病亚型的不同表征可以建立更好的诊断、预后或治疗选择系统,而不是将其标记为单一综合征。无监督聚类有助于根据这些疾病的rs-fMRI表现识别其亚型(表3)。

4. 监督学习

有监督学习表示一类问题,其中向学习系统提供数据的输入特征和相应的目标预测(或标签)目标是学习输入和标签之间的映射,以便系统可以为之前看不到的输入数据点计算预测。从rs-fMRI相关性预测自闭症是一个典型问题。由于内在功能因子反映了认知相关功能网络之间的相互作用,因此假设静息状态模式的系统改变可能与病理或认知特征相关。通过使用rs-fMRI的监督算法获得的有希望的诊断准确性构成了这一假设的有力证据。
在本节中,作者将rs-fMRI特征提取的讨论从分类算法和应用领域中分离出来。

4.1导出连接体特征

为了使监督学习有效,最关键的因素是特征提取。从rs-fMRI中获取相关神经表型取决于各种设计选择。几乎所有的监督预测模型都使用从rs-fMRI时间序列中提取的脑网络或“连接体”作为学习算法的输入特征。原型的预测流程如图8所示。在这里,作者讨论了监督学习中大脑网络表示的常见选择的关键方面。
图8.连接体的通用分类/回归的处理流程
典型流程的第一步是区域定义和相应的时间序列提取。从体素水平相关得到的密集连接体由于其高维数而很少在实践中用于监督预测。脑地图集描绘了大脑中经常用于在超体素尺度上研究RSFC的感兴趣区域。每个感兴趣区域用不同的时间过程表示,通常计算为感兴趣区域内所有体素的平均信号。因此,数据表示为一个N × T矩阵,其中N表示ROI的数量,T表示信号中的时间点。使用预定义图谱的一个缺点是,它们可能不能很好地解释rs-fMRI数据集,因为它们没有针对手头的数据进行优化。一些研究使用数据驱动技术来定义大脑中的区域,使用无监督模型,如K均值聚类、Ward聚类、独立分量分析或字典学习等。值得注意的是,由于作者使用对ROI定义整个大脑RSFC,因此随着ROI的数量,这些特性会随着ROI的数量而增长为(

N2)。因此,在大多数研究中,网络粒度通常限制在10-400 ROI范围内。因此,在大多数研究中,网络粒度通常被限制在10-400个感兴趣区域的范围内。

这个流程的第二步包括定义提取连接体矩阵的连接强度。在有监督学习中,感兴趣区域对之间的功能连通性是功能磁共振成像最常见的特征表示。为了提取连通矩阵,首先需要估计协方差矩阵。由于时间点的数量有限,样本协方差矩阵受到大量估计误差的影响。这个不适定问题可以通过使用收缩变换得到部分解决。然后可以通过多种方式从协方差矩阵中估计连接强度。皮尔逊相关系数是一种常用的估计功能连通性的度量标准。部分相关是另一个度量标准,已被证明可以在模拟的rs-fMRI数据中更好地估计网络连接。它在去除数据中所有其他时间序列的影响后,测量两个时间序列之间的归一化相关性。或者,可以使用协方差矩阵的基于切线的重新参数化来获得与协方差矩阵的黎曼(Riemannian)流形有关的函数连通矩阵。这些连接系数可以提高比较患病人群和患病人群的灵敏度。还可以通过将原始时间序列分解成多个频率子带并将这些子带内的信号分别相关来定义特定频率的连接强度。
一些研究偏离了这个常规。在图论分析中,通常将分割的大脑区域表示为图节点,将节点之间的功能连通性表示为边权重。这种基于图的功能连通性表示,即人类“连接体”,已被用来推断大脑网络的各种拓扑特征,如模块化、聚类、小世界性等。一些判别模型利用这些基于图形的测量方法进行个体水平的预测,尽管它们更常用于比较群体。尽管数量有限,一些研究也探索了RSFC以外的磁共振成像特征(图9)。低频波动的幅度(ALFF)和rs-fMRI信号的局部同步或区域同质性(ReHo)是研究自发大脑活动的两种替代方法,这两种方法已显示出辨别能力。最近,一些研究也开始探索监督模型中动态功能函数的预测能力。

图9.基于rs-fMRI的监督学习设计选择总结

4.2特征选择

特征选择的目标是从数据中去除噪声、冗余或不相关的特征,同时最小化信息损失。对于训练监督学习算法来说,特征选择通常是一个有利的预处理步骤,尤其是在小样本情况下。如果没有足够的正则化,大量的特征会导致泛化能力的损失。因此,选择相关性最高的特征子集有助于构建更好的可推广模型,同时降低计算复杂度。
特征选择可以有监督或无监督的方式进行。监督或半监督特征选择技术根据特征区分不同类别样本的能力来选择特征子集。因此,这些方法依赖于类标签,并可以进一步分为滤波器、包装器或嵌入类型模型(filter, wrapper or embedded type models)。滤波器模型首先基于统计度量(例如。t-test),然后选择排名靠前的特征。包装器模型基于它们的预测准确性来选择特征子集,因此需要预定的分类算法。因此,包装模型表现更好,因为它们在特征选择期间考虑了预测精度估计。然而,由于重复学习和交叉验证,这些模型在计算上是禁止的。嵌入式模型通过将特征选择集成到学习算法中,结合了两者的优点。像LASSO这样的回归模型属于这一类,因为它们通过鼓励稀疏性来隐含地选择特征。这些特征选择方法在唐等人的详细综述中进行了深入讨论。
特征选择的另一种方法是输入降维。像主成分分析或LLE这样的方法属于无监督特征选择技术的范畴,并且在一些研究中已经被用于将特征集减少到可管理的大小。然而,有论文指出的,这些根本不能保证提高分类性能,因为它们对类标签不敏感。
此外,特征选择是否必要也取决于下游学习算法。一般来说,支持向量机可以很好地处理高维数据,因为它是隐式正则化的。在支持向量机的背景下,Vapnik和Chapelle已经表明,泛化误差的上限与特征的数量无关。一般来说,正则化模型能够处理大型特征集。缺点是这些模型需要交叉验证来调整超参数,如正则化惩罚的权重。这可能会减少可用于训练和/或独立测试的有效样本量。
在某些情况下,利用领域知识来指导特征选择可能是有益的。例如,如果基于先前的研究,已知某些解剖区域已经改变了疾病中的功能连接性,则使用该先前知识来构建聚焦特征集可能是有利的。

4.3 方法

大多数应用于rs-fMRI的监督学习方法是基于判别的,即他们在没有任何关于生成过程的预先假设的情况下区分不同的类。重点是正确估计感兴趣的类别之间的界限。相同判别函数的学习算法(例如:线性)可以基于不同的目标函数,产生不同的模型。作者在下面描述了常见的模型(图10)。
图10:用于rs-fMRI分析的监督学习方法的分类
4.3.3决策树和随机森林
决策树基于输入特征空间X中的一系列分割来预测输出Y。该树是一个有向无环图,其节点代表决策点,边代表其结果。当到达没有子节点(叶节点)的节点时,该树的遍历结合起来导致目标结果预测。决策树通常以自上而下的贪婪方式构建,通过优化量化预测和基本事实之间一致性的指标,在每一步拆分节点。例如,在分类中,用于量化这种一致性的常用信息论度量是信息增益,即知道X后Y的熵的减少。数学上,这表示为
其中,H表示香农熵。基于这个度量,第一次分割将使用给出最大信息增益的属性X。决策树可以提供可解释性,但通常以降低准确性为代价。决策树的集合,如随机森林或增强树,因此在大多数应用中是更受欢迎的选择,因为它们产生更好的预测性能。
4.3.4深层神经网络
一个理想的机器学习系统应该是高度自动化的,在特征提取方面有有限的手工制作,并且对数据和标签之间的映射性质有最小的假设。该系统应该能够从观察到的标记数据中机械地学习对预测有用的模式。神经网络是非常有前途的自动化学习方法。这源于它们在给定足够的标记数据的情况下逼近任意复杂函数的能力。
基于深度学习的模型或神经网络定义了一个映射Y = f(X;θ)并优化参数θ,以产生最佳的函数逼近。函数f(⋅)通常由简单的非线性函数串联而成,通常称为层。一个广泛使用的层是一个完全连接的层,它线性组合输入变量,并应用简单的元素非线性函数,如sigmoid。层数决定网络的深度,并控制模型的复杂性。各层的权重和偏差通过基于梯度下降的方法进行优化,以最小化量化经验风险的目标函数。传统上,神经网络算法的使用受到限制,因为神经成像是一个数据稀缺的领域,使得很难学习输入和预测变量之间的可靠映射。然而,随着数据共享和大规模神经影像数据仓库的开放发布,神经网络最近在rsfMRI社区中被用于监督预测任务。具有完全连接的密集层的神经网络已经被采用来学习从连接特征到疾病标签的任意映射。最近,更先进的具有局部感受野的神经网络模型,如卷积神经网络(CNNs),已经使用rs-fMRI数据显示出有希望的分类精度。神经网络用一组可学习的滤波器取代了卷积的全连通运算。这种方法的成功源于它能够利用遥感-功能磁共振成像的全分辨率3D空间结构,而不必学习太多的模型参数,这要归功于CNN中的权重共享。
4.3.5评论
4.3.5.1 不同方法的优缺点。
所有算法都有自己的优缺点,方法的选择应该由几个因素决定,如预测任务、样本大小和输入特征的性质。用于神经成像应用的常见监督学习算法(如正则化线性模型或SVMs)中的训练目标通常是两个项的组合:数据丢失项,它是经验风险或训练误差的度量,以及先验的正则化惩罚,它有助于打击学习过程中的过度拟合(泛化误差)。惩罚标准可能很关键,并且经常受到作者对数据的先验知识的限制。L1惩罚鼓励权重的稀疏性,而L2惩罚可以允许内核化,从而实现非线性决策函数。L2惩罚导致密集的先验,并且在学习所有特征都有助于预测模型的问题中是有用的。当先验信念表明只有一部分特征有助于预测时,L1惩罚是有用的。一些回归模型,例如Elastic-Net,采用这两种惩罚的线性组合,以额外的超参数为代价来调整两者之间的权衡。算法的选择也受最终目标的影响。当需要可解释性而不是最佳性能时,像决策树或LASSO这样的模型通常是首选的,而如果目标是最大化性能,像支持向量机、随机森林或神经网络这样的高复杂性模型是必不可少的。

4.3.5.2对样本大小的评论。
一个重要的问题出现了:训练监督学习模型的合适样本量是多少?不出所料,研究表明,学习所需的样本大小取决于模型的复杂性。强大的非线性算法通常需要更多的训练样本才能有效。一般来说,人们还会期望数据中的特征越多,就需要越多的训练样本来表征它们的分布。因此,用于训练最大似然算法的最小训练规模通常是输入维数、所选模型的复杂性、数据质量、数据异质性、类的可分性等的复杂函数。
鉴于样本量对分类性能的显著影响,理解这种关系的本质是非常必要的。使用学习曲线回答这个问题有重要的持续研究。这些曲线模拟样本量和泛化误差之间的关系,并可用于预测训练特定分类器所需的样本量。几项研究表明,学习曲线可以用逆幂律函数形式很好地表征,用E(n)β,其中E表示误差,n表示样本大小。除了经验证明,许多研究也提供了逆幂律模型的理论动机。基于先前的分类研究,对于给定的应用领域,根据经验拟合学习曲线的参数。对于传统算法,已知学习曲线是平稳的,即超过一定的样本量,性能的提高是微不足道的。深度学习方法的一个显著优势是,如果有足够的容量,它们可以在更多数据的情况下非常好地扩展。鉴于最近对使用rsfMRI进行单个受试者预测的兴趣激增,估计rs-fMRI数据分类的学习曲线对于理解该领域的样本量要求可能是非常宝贵的。
另一个关键问题涉及估计预测分数的稳健性。实证研究表明,神经影像学研究中典型的小样本量会导致预测精度的大误差。例如,在样本大小为100的情况下,估计二进制分类任务的预测精度误差接近10%。在1000个样本的情况下,这个误差降低到3%。大的置信界限可能会使基于少量样本的研究结论无效。
克服样本量不足限制的一种可能策略是以半监督方式利用未标记数据,以提高监督学习算法的有效性。迁移学习技术是在低数据率下提高分类性能的另一种有前途的方法。这些方法利用在大型数据集或辅助任务上训练的神经网络,通过将它们微调到目标数据集或分类任务。在rs-fMRI分析领域,这些是相对未被探索的方向,具有缓解样本量限制的巨大潜力。
4.3.5.3对模型评估的评论。
交叉验证是一种模型评估技术,用于估计预测模型的泛化误差。一个简单的交叉验证策略是保持,其中数据被随机分成一个训练和测试集,并且在这个单次运行中的测试分数被用作样本外准确性的估计。在大多数神经影像学研究中,由于样本量有限,K-fold是主要的交叉验证选择,因为它通过重复保持来利用所有数据点进行训练和验证,产生的误差估计比经典保持要小得多。它首先将数据划分为K个不重叠的子集,D = {S1,…,SK}。对于每个折叠i在{1,…,K}中,模型在D Si上训练,在Si上评价。然后使用所有折叠的平均精度来估计模型性能。而K可以是任何数值,常见的选择有5或10.当K等于训练集中的样本数时,重采样过程被称为留一交叉验证。当样本量较低(通常小于100)时,这可以用于计算成本较低的模型。

4.4.监督学习在磁共振功能磁共振成像中的应用

利用静息态相关性进行监督预测任务的研究正以前所未有的规模发展。下面作者描述一些在rs-fMRI中有监督机器学习的有趣应用。
4.4.1大脑发育和衰老
机器学习方法在研究正在发展的连接体方面显示出希望。在早期有影响的工作中,Dosenbach等人证明了在青少年和年轻成人中使用RSFC预测按年龄测量的大脑成熟的可行性。利用SVM,他们开发了一个基于预测大脑年龄的功能成熟指数。后来的研究表明,即使在分布于人类一生的不同群体中,大脑成熟度也是可以合理预测的。这些工作将磁共振功能磁共振成像作为预测健康神经发育的有价值的工具,并揭示了RSFC与年龄相关的新动态,如感觉运动区功能性传导通路的主要变化,或随年龄增长而日益分布的功能结构。除了表征伴随自然衰老的RSFC变化,机器学习也被用来识别非典型的神经发育。
4.4.2神经和精神疾病
机器学习已被广泛用于研究rs-fMRI数据在各种神经和精神疾病中的诊断价值。神经退行性疾病,如阿尔茨海默病,其前驱状态轻度认知障碍,帕金森病和肌萎缩性侧索硬化(ALS),已被机器学习模型使用基于功能连接性的生物标记物以有希望的准确性进行分类。阿尔茨海默氏症或多发性硬化症等神经疾病的脑萎缩模式早在行为症状出现之前就出现了。因此,源于结构或功能异常的基于神经影像学的生物标志物有利于早期诊断和随后的干预以减缓退行性变过程。
精神疾病的生物学基础一直难以捉摸,这些疾病的诊断目前完全由行为评估驱动。磁共振成像已经成为一种强有力的方法,可以获得基于成像的生物标志物,用于对精神疾病进行诊断性预测。使用RSFC的监督学习算法在对各种精神疾病的症状严重性进行分类或预测方面显示出有希望的结果,包括精神分裂症,抑郁症,自闭症谱系障碍,注意缺陷多动障碍,社交焦虑障碍,创伤后应激障碍和强迫症。作为这些研究的结果,针对这些疾病出现了几个新的网络破坏假说。这些预测模型大多基于标准的基于核的支持向量机,并依赖感兴趣区域对之间的模糊聚类作为判别特征。
4.4.3认知能力和人格特征
功能连接也可以用来预测认知和行为的个体差异。与捕捉单一认知维度的任务功能磁共振成像研究相比,由于其不受控制的性质,静息状态包含了广泛的认知状态。这使得它成为一种丰富的方式来捕获跨多个行为域的个体间可变性。在健康和病理人群中,基于RSFC的生物标记物显示,最大似然模型可以预测流体智力,持续注意力,记忆表现,语言得分。最近,这些模型的效用也被证明扩展到了人格特征,如神经质、外向性、宜人性和开放性
行为表现的预测在临床环境中有助于理解病理学中的RSFC破坏与认知功能受损之间的关系。Meskaldji等人使用回归模型从不同的连接性测量预测轻度认知障碍患者的记忆障碍。西格尔等人通过训练岭回归模型将RSFC和结构与多个领域(记忆、语言、注意力、视觉和运动任务)的表现联系起来,评估了中风患者网络中断的行为意义。其中,记忆缺陷由RSFC更好地预测,而结构对于预测视觉和运动障碍更重要。这项研究强调了rs-fMRI如何在研究大脑-行为关系中补充结构信息。
4.4.4警惕性波动与睡眠研究
一些研究使用机器学习来预测rs-fMRI扫描期间的警戒水平。由于静息状态研究不需要任务处理,受试者容易在清醒和睡眠之间徘徊。rs-fMRI期间警戒状态的分类对于消除警戒混淆和污染很重要。在皮质-皮质RSFC上训练的SVM分类器已经被证明能够可靠地检测到睡眠呼吸暂停综合征内的睡眠周期。塔利亚祖奇和劳夫斯发现,在实验组的三分之一的受试者中,早在进入扫描仪3分钟时,就出现了失眠。这些发现很有趣:虽然假设静止状态可以捕捉清醒状态,但即使扫描持续时间很短,这也不完全正确。这些研究的效用不应仅限于分类。通过适当的解释和可视化技术,机器学习可以在人们进入睡眠状态时对功能组织的重新配置提供新的启示。
预测不同睡眠条件后认知反应的个体差异(例如睡眠剥夺)使用机器学习分析rs-fMRI是另一个有趣的研究方向。人们对研究睡眠剥夺后的RSFC变化很感兴趣。虽然统计分析已经阐明了睡眠剥夺的功能重组特征,但仍有许多关于易受睡眠剥夺影响的个体间差异相关的功能性认知模式有待理解。Yeo等人在休息良好的状态下,根据功能连接性数据训练了一个SVM分类器,以区分睡眠剥夺后容易出现警觉性下降的受试者和更有弹性的受试者,并揭示了各组之间的重要网络差异。
4.4.5遗传可能性
理解基因对大脑结构和功能的影响一直是神经科学的长期目标。在最近的一项研究中,葛等人。采用传统的统计框架来量化全脑血流动力学估计值的遗传度。还在机器学习框架内对RSFC的遗传和环境基础进行了调查。米兰达-多明戈斯等人在单个FC签名上训练SVM分类器,以区分同胞和双胞胎对与不相关的受试者对。这项研究揭示了几个有趣的发现。从静息态功能磁共振成像成功预测家族关系的能力表明,功能连接的各个方面是由遗传或独特的环境因素决定的。事实上,在年轻的成年人中,预测仍然是准确的,这表明这些影响是通过发展来维持的。此外,与非双胞胎兄弟姐妹相比,预测双胞胎的准确性更高,这意味着遗传(而不是环境)可能是更强的预测力。
4.4.6其他神经成像方式
机器学习也可以用来询问rs-fMRI和其他模式之间的对应关系。最密切相关的模态是任务-功能磁共振成像。Tavor等人经过训练的多元回归模型表明,静息状态连接可以预测大脑中几个行为领域的任务诱发反应。rs-fMRI是一种无任务机制,它能够预测多项任务引发的激活模式,这表明静息状态可以捕捉基于任务的fMRI所反映的丰富认知状态。这些回归模型的性能被证明可以推广到病理人群,表明这种方法在无法执行某些任务的人群中绘制功能区的临床应用。
调查结构连接如何塑造不同大脑区域之间的功能联系一直是大量研究的焦点。虽然神经计算模型有望实现这一目标,但机器学习模型特别适合捕捉结构-功能关系中的个体间差异。Deligianni等人提出了一个结构输出多元回归模型,从DWI导出的结构连接性预测静息态功能连接性,并通过交叉验证证明了该技术的有效性。Venkataraman等人引入了一种新的概率模型,以检查使用DWI追踪成像和RSFC测量的解剖连接性之间的关系。他们的公式假设这两种模式是从一个共同的连接模板生成的。估计的潜在连接性估计被证明可以区分对照人群和精神分裂症人群,从而表明联合建模在临床环境中也是有用的(表4)。

5. Discussion

5.1给机器学习从业者的实用建议

任何机器学习应用程序都需要以下条件:(a)反映测量值和其他归纳偏差之间假定关系的模型,(b)量化模型捕捉作者数据的能力的成本函数,以及(c)最小化成本的适当优化算法。机器学习在rs-fMRI中的成功应用需要对这些算法如何工作、失败时意味着什么以及最重要的是如何为给定的任务或假设选择算法有一个整体的观点。有三个关键因素可以决定这一选择:
1. 研究的问题是什么?作者之前的信念是什么?无监督学习处理关于数据生成过程的问题。例如,聚类和分解方法都被广泛用于理清rs-fMRI数据的潜在因果来源。然而,它们代表了不同的先验信念,并且经常回答不同的研究问题。例如,在发现RSNs的背景下,独立成分分析假设潜在成分是独立的,并寻求恢复激活源的空间位点。这种分解进一步实现了功能活动与噪声源的分离。另一方面,聚类通常假设每个空间位置/区域的激活可以用一组集群中的一个底层组件来解释。因为这种方法导致不相交的功能网络,聚类是学习空间连续全脑分组的主要方法。
当目标是做出预测时,监督学习算法是通常的选择。监督模型的选择再次取决于研究问题:目标是理解标签和特征之间的关系还是构建诊断工具?可解释性是前者应用的关键,而最高的准确性可以解释为后者的主要目标。因此,必须根据这一最终目标来选择模型的复杂性。作者建议这些目标在模型开发之前被很好地定义。
2. 需要多少数据?评估数据量以及获取更多数据是否可行非常重要。样本大小可以限制模型的复杂性。需要更多的训练示例来捕捉要素和标签之间的非线性关系,而不是线性关系。数据保真度和正则化也必须根据样本大小进行权衡。在小样本情况下,正则化变得更加关键,因为模型更可能过度依赖训练样本。
3.计算预算是多少?有时,计算预算可能是限制性的。例如,某些算法,如深度神经网络,有很高的计算需求,可用资源可能无法支持。此外,如果特征的数量非常大,训练即使是低复杂度的模型也会很耗时。在这种情况下,运行时复杂度较低的模型可以优先考虑,尤其是对于早期研究。因此,在选择合适的模型时,必须确定时间、计算预算或空间限制。

5.2限制和机会

许多最先进的rs-fMRI分析技术植根于机器学习。无监督和有监督的学习方法都极大地扩展了rs-fMRI的应用领域。随着神经影像数据数据的规模化和学习算法的进步,预计未来将产生更大的影响。尽管机器学习取得了实际的成功,但理解其目前在应用于功能磁共振成像时遇到的挑战是很重要的。作者在下面概述了一些重要的限制和未探索的机会。
与无监督学习方法相关的最大挑战之一是缺乏对应评估的基本事实(即金标准)。没有先验的大脑通用功能图来作为分组方案之间比较的基础。此外,全脑分组通常以不同的功能组织规模来定义,从几个大规模的包裹到数百个区域,这使得比较更具挑战性。尽管已经开发了几个评估标准来解释这种可变性,但是没有一个单一的学习算法在所有方面都表现出始终如一的优势。由于各种方法之间的权衡,选择哪种分组作为网络分析的参考在很大程度上是主观的。
探索网络动态的无监督学习方法同样容易产生主观性。通过离散的精神状态来描述动态的功能连接是困难的,主要是因为精神状态可能是无限的(infinite)。虽然dFC状态被认为反映了不同的认知过程,但很难获得不同状态的行为对应,因为静息状态不是外部探测的。这又一次使解释变得困难,并容易产生主观偏见。这个方向的机器学习方法到目前为止依赖于聚类统计来固定FC状态的数量。非参数模型(例如infinite hmm)提供了一个未经探索的、有吸引力的框架,因为它们根据底层数据的复杂性自适应地确定状态的数量。
使用rs-fMRI进行单个受试者预测的一个重大挑战是,rs-fMRI特征可以用多种方式描述。没有公认的时间序列提取黄金标准图谱,也没有关于最佳连通性度量的共识。此外,即使是功能磁共振成像预处理策略也可能有很大差异。探索这个空间很麻烦,尤其是对于像神经网络这样训练速度慢的高级机器学习模型。理想的系统应该对这些选择保持不变。然而,在rs-fMRI中,这种情况很难出现,因为在这些因素的相关预测性能中已经报告了较大的偏差。
在大规模人群中训练稳健预测系统的另一个挑战来自于多位点rs-fMRI数据的异质性。与基于任务的协议相比,静止状态更容易跨站点标准化,因为它不依赖于外部刺激。然而,不同站点采集协议和扫描仪特性的差异仍然是异质性的重要来源。尽管样本量较大,但多点研究表明,与单点研究相比,预测精度几乎没有提高,虽然可以从数据中标准化站点外效应,但在实践中需要更先进的工具来减轻这种偏差。
通过监督学习方法获得的高诊断准确性应谨慎解读。几个混杂变量会导致功能连接性估计的系统偏差。例如,已知头部运动会影响默认模式网络和额顶叶控制网络中的连接模式。此外,运动轮廓也在感兴趣的子组之间系统地变化,例如,患病患者通常比健康对照者活动更多。除了产生虚假的关联,这可能会影响监督预测研究的可解释性。独立的统计分析对于排除混杂变量对预测的影响至关重要,尤其是当这些变量在被研究的组之间有所不同时。
需要进行方法创新,以将预测精度提高到适合临床应用(clinical translation)的水平。几个因素使得跨研究的方法比较乏味。交叉验证是最常用的报告模型性能的策略。然而,较小的尺寸(在rs-fMRI研究中很常见)会产生较大的误差条,表明数据分割会显著影响性能。在基于rs-fMRI数据开发预测模型时,可推广性和可解释性仍应是重点。这些是实现机器学习模型临床应用的关键属性。不确定性估计是任何监督学习应用中的另一个挑战;理想情况下,任何分类算法的类分类都应该伴随着反映预测不确定性的额外措施。这对于临床诊断尤其重要,因为了解个体预测的可靠性非常重要。
大多数现有的研究侧重于对单一疾病和对照进行分类。诊断系统区分多种精神疾病的能力在临床环境中更有用。因此,有必要评估最大似然模型在鉴别诊断中的有效性。将rs-fMRI与扩散加权磁共振成像等互补模式相结合,可能会产生更好的疾病神经表型,这是另一个具有挑战性但有前途的研究命题。

6. 总结

本文中,作者已经对rs-fMRI分析中的机器学习技术的现状进行了全面回顾。作者已经根据应用和技术分别组织了关于这个主题的大量文献,以使来自神经成像和机器学习社区的研究人员能够识别当前实践中的主流和仍旧存在不足的地方(表5)。从本文的全面阅读开始,你将快速融入rs-fMRI机器学习研究的洪流,并且能够有效地掌握全貌。
(终于写完了,这让我想起了十几年前在奥克兰山谷打了两天两夜战场,值一个转发)
(0)

相关推荐