静息态功能性磁共振成像(rfMRI)可用于测量功能连接,进而识别大脑网络和相关的大脑紊乱和疾病。然而,要探索这些复杂网络,需要处理大量的数据。神经成像技术的最新进展,以及rfMRI的独特方法,使我们能够进入生物医学大数据时代。针对大数据共享项目的最新进展及其面临的挑战已经在最近进行了大量讨论。随着神经影像数据的大幅增加,开发预处理管道和高级分析的重要性随之提高,这些技术可以更好的的处理大规模数据集。在对rfMRI数据应用分析方法之前,需要进行几个预处理步骤来减少不必要的影响。本文讨论三种访问大型预处理rfMRI数据的方法,涉及了最少的预处理过程。
虽然目前有几种常用的方法来检查功能连接性。但是,它们在大数据分析中受到限制,因此有必要使用一种新的工具来探索此类数据。因此,本文还提出一个新方法的数量植根于代数拓扑,统称为拓扑数据分析的rfMRI功能连通性,并讨论了它们在大数据分析中的特性。本文发表在IEEE Transactions on Big Data杂志。
关于本文重要的拓扑数据分析方法:https://zhuanlan.zhihu.com/p/31734839这篇博文,讲的很好。
关键词:大数据、脑网络、功能连通性、图论、预处理管道、静息态fMRI、拓扑数据分析人脑是一个功能复杂的网络以及结构相互联系的区域。虽然每个区域有其自身的任务和功能,但这些不同的大脑各区域之间通过不断地共享信息,形成一个名为脑网络的复杂整合网络。为了理解人类的脑组织,人们可以研究不同的脑功能区域或者功能连接的潜在联系,作为大脑的物理或结构连接。功能连通性主要通过静息态rfMRI进行探索和研究,并且通常根据时间相似性进行相关性或空间分组分析。基于在休息期间,没有任何明确任务的条件下,通过血氧水平依赖(blood-oxygen-level dependent,BOLD)信号(或rfMRI时序)变化观察到多个脑区的自发神经元活动模式不是随机非结构化的,而是高度相关的。换句话说,可以通过测量解剖分离的脑区之间的rfMRI时间序列的同步程度来探索功能连接。这些方法假设类似的激活模式可以反映大脑区域之间的功能和神经元交流,而不考虑这些区域之间的明显物理连接。使用这些方法生成的功能性网络也称为静息态网络。由于rfMRI所依据的假设是自发性低频BOLD波动(0.01-0.1Hz),这是对大脑内在活动的一种测量方法,因此一些研究人员质疑静息态下观察到的波动是否可能是其他身体功能的伪影。虽然这些波动的真正神经元基础还没有完全被理解,但有几个支持rfMRI可能的神经元基础。例如,大多数与静息态相关的活动倾向于沿着大脑的结构网络,从rfMRI得出的信息与其他神经元活动测量值之间也存在关联等等。第一个也是最基本的静息态网络称为默认网络(default mode network, DMN),首次在Biswal和其同事的开创性rfMRI研究中提出,后来被一系列研究证实。与其他在任务执行过程中被激活的大脑网络不同,DMN是一组在休息时处于活动状态的大脑区域,处于大脑的基线或默认模式,而在各种认知任务中处于失活状态。这些研究还表明,在任务期间一起激活或停用的大脑网络在静止时保持着它们的特征连接。这意味着神经科学家无需使用专门设计的任务就可以研究健康和异常大脑的已知功能性脑网,这样就很方便在那些无法完成任务的幼儿或患者身上来展开研究了。使用rfMRI的优点包括操作简单,可以提供更好的信噪比(signal-to-noise ratio, SNR),以及相对较短的采集时间,从而可以增加样本量或大数据。不像基于任务的成像一般只提取一个特征大脑网络,rfMRI允许我们同时观察多个大脑网络(或多用途数据集)。借助rfMRI,功能连接性还可以用于检查在脑部疾病和疾病,例如阿尔茨海默氏病,肌萎缩性侧索硬化症,注意力缺陷多动障碍(attention defificit hyperactivity disorder, ADHD),自闭症,癫痫,帕金森氏病,精神分裂症,多发性疾病中的几种假设和认为的功能不连通性影响的硬化症和强迫症。这些信息将有助于临床医生的预后,诊断和治疗。不幸的是,rfMRI的临床应用仍处于早期发展阶段。尽管基于rfMRI的功能连接可以揭示有关大脑区域和网络功能连接的有趣新发现,但是探索这些复杂的网络仍需要大量数据。神经影像技术的最新进展与rfMRI的独特方法学方法相结合,使我们进入了“生物医学大数据”时代。例如,1000个功能性连接体项目和人类连接体项目,这两个神经影像数据库,已经公开发布了1000多个rfMRI数据集。在这里我们介绍了现有共享rfMRI大数据集的最新进展(在第2节)。随着共享神经影像数据集的不断增加,开发数据预处理管道和先进分析技术的重要性大大提高,这些技术可以更好地处理大规模的rfMRI数据。在对rfMRI数据应用任何分析技术之前,需要进行几个预处理步骤,以减少各种伪影,对单个受试者在不同时间点获得的数据进行对齐,在不同受试者的大脑之间建立某种对应关系,等等。从文献资料中可以看出,不同的预处理方法及其在预处理管道中的顺序会影响统计组差检验和分类模型得到的结果。大多数研究使用了自己的专用管道,并且尚未就最佳预处理管道达成共识。在这里,本文介绍了最先进的rfMRI预处理管道,重点介绍为大规模rfMRI数据分析而设计的软件包(第3节)。在对rfMRI数据进行预处理后,有几种常用的功能连通性检测方法,如基于种子的关联分析(seed-based correlation analysis, SCA)、聚类分析、主成分分析(principal component analysis, PCA)、独立成分分析(independent component analysis, ICA)和图论。然而,这些传统方法在面对描述大量元素之间复杂交互、高维数据集时,在描述能力方面受到了限制,这在大数据分析中是经常出现的情况。需要新的工具来补充对这些数据集的探索和分析。因此,我们最后提出了一套基于代数拓扑学的rfMRI功能连通性分析新方法,并讨论了它们在大数据分析中的特性(第4节)。在人类大脑复杂认知操作的大规模组织中,大量共享的rfMRI数据集对于获得新的见解和有趣的发现是必要的。一些临床和研究问题不能用单一的小数据集来回答,因为每个子群体可能表现出其他人不共享的不同特征,为了补偿rfMRI记录中典型的受试者间和受试者内的巨大变异性,大样本通常更可取。大数据共享具有许多优势,例如,提高研究的可靠性和可重复性(即,提高统计能力和降低假阳性率),改进研究实践,最大化研究对象的贡献,备份有价值的数据,降低神经影像学的研究成本等等。由于rfMRI独特的方法,在过去的十年里,人们对获取大规模功能性神经影像数据集的兴趣日益高涨。神经影像技术以及数据存储、管理和共享系统的最新进展也使得大的神经影像数据的无限制共享和开放存取成为可能,这些数据涉及到rfMRI数据的特别重点项目是:1000个功能性连接体项目和人类连接体项目。本节重点介绍这两个大数据共享项目的最新进展。1000个功能连接体项目(Functional Connectomes Project,FCP)于2009年启动,该项目收集了来自33个国际研究所和中心的1300多个受试者的rfMRI数据。成功注册后,所有数据集都可以在http://fcon_1000.projects.nitrc .org. 获取。所有数据集都是匿名的,提供的人口统计信息仅限于年龄、性别和利手习惯。没有对任何一个数据集进行广泛的数据预处理。然而,作为项目的一部分,提供了进一步预处理数据集的脚本,其中包括运动校正、6 mm半最大全宽空间滤波和12自由度仿射变换,配准到MNI152(the Montreal Neurological Institute of McGill University Health Centre)立体定向空间。Biswal等人为了证明合并多个位点的rfMRI数据的可行性,使用SCA和IC两种常用的方法,对来自24个地方的1093名受试者进行了几种功能连通性分析。结果表明了一个通用的功能结构(即,跨数据收集站点的功能连接的一致模式),以及基于rfMRI测量的频域分析中的年龄和性别差异。这些发现证实了高通量rfMRI数据的有用性。因此,该项目的数据已被用作评价在这一研究领域提出的新方法。该项目是国际神经影像数据共享计划项目下许多大型数据集的父项目:例如,与来自17个不同地点的1026名自闭症谱系障碍患者和1130名典型对照进行自闭症脑成像数据交换(Autism Brain Imaging Data Exchange,ABIDE),ADHD-200包含383名患有多动症儿童和青少年和491名来自8个多地点的对照组,可靠性和再现性联盟有(Consortium for Reliability and Reproducibility, CoRR)1652名受试者。该项目正在进行的阶段是定期发布(例如,每周,每月或每季度)具有前瞻性的rfMRI数据集,例如增强的Nathan Kline Institute-Rockland样本,目前共有973名受试者。所有的FCP数据集都使用XNAT进行分布,XNAT是神经信息学研究小组开发的应用最广泛的成像信息学平台。为了支持云计算,FCP数据最近可以从Amazon简单存储服务(S3)bucket8下载。此外,来自FCP和INDI的数据使用不同的预处理管道进行预处理,并在新项目(即预处理连接体项目)下公开共享。然而,FCP的一些限制已经被承认,例如,rfMRI数据是从先前收集的数据中汇集而来的,因此没有事先协调数据采集方法。人类连接组项目( Human Connectome Project, HCP)于2010年由WU-Minn HCP组合发起。在本项目的第一阶段,开发了数据采集和分析的方法。在第二阶段,从三个不同研究所的1200名对象中获得数据时,应用标准化的成像协议和预处理管道。研究对象是来自不同的种族群体健康双胞胎和他们的非双胞胎兄弟姐妹,年龄在22-35岁之间。所有神经影像学数据和大多数行为数据都可以在成功注册后访问www.humanconnectome.org。这种神经影像数据不仅包括rfMRI还包括用追踪分析的扩散磁共振成像(diffusion MRI, dMRI) 、任务诱发fMRI (taskevoked fMRI ,tfMRI)和脑磁图(magnetoencephalography ,MEG)。获取受限数据元素:家庭结构(双胞胎或非双胞胎身份)、年龄和利手等需要接受HCP受限数据使用协议。整个目标样本的第一个子集是2013年3月发布。到目前为止,HCP通过基于XNAT的数据管理系统ConnectomeDB发布了1,206名受试者的整个数据集,总共超过64TB。与FCP类似,HCP数据也在Amazon S3上提供,这一种基于云的数据处理,以便用户直接通过Amazon网站服务处理和分析数据。不用下载所有数据集,可直接在8个8 TB硬盘上订购数据(所谓的盒内连接)。此外,还提供了一套软件包,作为涉及HCP最小预处理管道脚本的项目一部分。该项目目前是许多新的大规模数据共享项目的基础。新的项目是建立在HCP的基础上,使用相同的数据采集和分析。例如,“发展中人类连接体项目”(Developing Human Connectome Project, dHCP)研究,目的是研究在出生后20至44周之间的人脑连接;“婴儿连接体项目”(Baby Connectome Project, BCP)是针对从出生到5岁的儿童;“生命周期人类连接体项目”(L-HCP)是针对不同年龄组的不同寿命(4-6、8-9、14-15、25-35、45-55、66-75)。除了健康的受试者外,还资助了十多个项目来研究与人类疾病相关的连接体。为FCP和HCP收集的数据确实显示了几个大数据量。虽然rfMRI数据没有其他形式的数据(如基因组测序数据)那么大,但是这些共享的大规模数据集一台计算机已经无法处理它们。换句话说,这个rfMRI数据确实显示出很大的体积。在数据量不大的情况下,已经设计了许多rfMRI数据预处理和功能连接的方法。因此,这些方法在处理大规模数据方面存在困难。考虑到FCP和HCP数据是最近才发布的,并且只有很少的最近的方法能够处理大规模的rfMRI数据,研究基于这些数据是相当新的。可以分析这些数据的新方法要么通过修改依赖于并行计算环境的传统方法,要么是通过提出在并行计算或云计算环境中工作的新方法来开发的。“大品种”是指单个大rfMRI数据集内的信息多样性或多个rfMRI数据集的多样性(数据集间变化)。当rfMRI数据与其他神经影像数据和行为数据一起分析时,也可能发生多种变化。这是大数据研究的关键阶段,众所周知,不应将单个大数据集视为统一的数据,因此有必要对多种成像方式进行交叉验证。由于HCP,它涉及多种成像模式(rfMRI, tfMR, dMRI, MEG),使研究人员可以应用多模式数据集成技术来提高结果的可靠性和鲁棒性。大数据共享项目则主要关注其他MRI数据类型的共享,OpenfMRI项目(主要关注task-fMRI的共享)和开放获取影像学研究系列(Open Access Series of Imaging Studies, OASIS)项目(共享了500多个受试者MRI结构数据)。对于OpenfMRI项目,在63个数据集中,当前可用的受试者数量为2,158人。此外,HCP还提供了不同类型的预处理fMRI数据,从未处理的NIFTI图像、最小预处理的NIFTI图像、ICA去噪的RFMRI数据到功能连接数据。与基于坐标的数据和统计图相比,这增加了重新分析调查人员数据的效用和灵活性(通常包括在大多数神经成像论文中,或者通过几个数据共享项目如BrainMap、Neurosynth、SumsDB15和NeuroVault提供)。作者还提出“大准确性”这一概念,来描述大数据中由噪声,不完整,不一致或错误所引起的准确性问题。尽管大数据对于检测相关性非常有用,尤其是细微的相关性,通过分析较小的数据集可能会忽略这些相关性,科学家每次在寻找较大的数据集时都可能发现许多具有统计学意义的相关性,因此科学家应该更清楚哪些相关性是有意义的。这是由于在大规模数据集中,较大的偏差更多地归因于变动(噪声),而不是真实信息(或信号)。具体来说,rfMRI数据中的非神经元波动可以通过引入跨rfMRI时间序列的虚假共同方差来增加脑区之间的表象功能连接(即增加寻找虚假或侥幸相关性的机会)。因此,数据预处理是必要的,是大数据研究的关键阶段。在rfMRI数据分析中,几个预处理步骤正逐渐被越来越多的人接受为标准,尽管在数据预处理管道中使用的这些先进技术往往会大大增加计算负担。应开发一套能够利用先进分析技术对大数据进行预处理的新软件。数据的减少是另一个关键阶段,特别是在处理具有BigVerity的大规模数据集时,也就是说,使用从可能包含无关、冗余和噪声信息的整套特征中的选择或提取方法来区分相关和有意义的特征。这些任务也可以使用拓扑数据分析来完成。这种方法不仅减少了噪声元素的影响,而且减少了所需的存储空间。在研究背景下,大速度可能来自前瞻性的rfMRI数据。大速度也发生在数据以更高的速度进入和处理时,例如在临床设置中实时监测病人的当前状况。在应用rfMRI技术研究功能连通性之前,需要执行几个数据预处理步骤,以消除rfMRI数据中所有不必要的影响,并增加观察神经效应的可能性。这种大量相互连接的预处理步骤统称为管道(或工作流)。到目前为止,对于什么是最佳的数据预处理管道,以及如何在特定的预期应用中选择最佳的管道,还没有达成一致意见。大多数研究使用他们自己的特定管道,通常由实验者的个人偏好或所用软件包的默认值来定义。此外,人们普遍认为,不同版本的预处理管道会影响统计组差异测试和分类模型的结果。从一个rfMRI研究到另一个rfMRI研究的三个重要特征是:(1) 应用了哪些预处理步骤;(2) 以什么顺序;(3) 在某些步骤中涉及的参数值。由于可能的组合有很多种,很难在大的rfMRI数据集上对它们进行评估。在rfMRI方法中,特别是在大规模数据集中,很少有系统的方法来评估不同预处理管道在rfMRI方法中应用的效果。在本文中,我们提出了三种访问大预处理rfMRI数据的方法:(1) 最小的预处理管道;(2) 预处理连接体项目;(3) rfMRI大数据的软件包。每一种方法都有自己的优点和缺点,这取决于分析的类型。尽管未经处理的神经影像信息学技术(Neuroimaging Informatics Technology Initiative, NIfTI)数据可通过数据共享项目获得,但这些项目预计研究人员将更倾向于使用从其团队成员开发的最小预处理管道获得的预处理数据。最小预处理管道的主要目标是为rfMRI数据提供最低的数据质量标准,同时从实际数据中移除的信息量最小化。这种经过最少预处理的数据可以作为任何分析的起点。这对于缺乏足够的计算资源来预处理大规模数据集的研究人员来说尤其有利。然而,为了获得最佳结果,重要的是应用进一步的预处理步骤,这些步骤取决于所使用的rfMRI方法和数据采集的特性(在将这些管道应用于其自身数据的情况下)。值得注意的最少预处理管道是在HCP等数据共享项目中实现的管道。由于HCP最小预处理管道是专门针对其自己的特定数据采集协议而设计的,因此任何想使用HCP最小预处理管道的研究都需要其最小数据采集协议。HCP采集系统的有趣特征是使用基于快速重复时间(TR)采样的多频带脉冲序列。基于这种方法,每个体积中采集的所有切片都非常靠近(与典型的fMRI采集系统相比),因此没有必要(但仍然是可选的)在HCP管线中进行时间层校正。具体而言,用于功能预处理管道的HCP最小预处理管道包括校正梯度非线性引起的失真、调整时间序列以校正受试者头部运动、将fMRI数据配准到结构数据、减小偏置场、将4D图像归一化为全局均值,使用最终的大脑蒙版掩盖数据以及使用具有2 mm FWHM的新型测地高斯表面平滑算法对空间进行平滑。这些管道中不包括可能去除大量信息的预处理步骤(例如,时间滤波,干扰信号回归和删除头动帧)。例如,尽管高频通常与干扰信号有关,但一些研究表明,高频(0.1至0.5 Hz)中包含重要信息。因此,仍然需要争论的预处理步骤通常被排除在最少的预处理管道之外。然而,HCP最少的预处理管道包括场图失真校正步骤,在实践中通常会忽略它(很多实验室都不扫描)。
对于FCP数据,只执行了三个简单的预处理步骤,包括NIFTI格式转换、统一的方向放置和去除前5个时间点。这几个预处理步骤可能不足以产生最小的数据质量标准,可能需要进一步的预处理步骤。此外,除了在数据共享项目中实现的最少预处理管道外,一些软件包还提供了最小预处理管道作为一种选项,如SPM和C-PAC。请注意,软件工具和软件包的全名见表1和表2。本节介绍了这些工具和软件包的贡献。
表2 功能性核磁共振预处理管道和功能连接软件包的列表
如果您对静息态及脑影像数据处理感兴趣,欢迎参加思影科技课程,详情请浏览以下链接(可添加微信号siyingyxf或18983979082进行咨询):
第三十六届脑影像基础班(南京,2021.1.6-11)
第三十八届脑影像基础班(南京,2.23-28)
第十九届磁共振脑网络班(南京,1.18-23)
第七届小动物磁共振脑影像数据处理班(南京,12.20-25)
第十五届DTI数据处理班(南京,12.26-31)
第十一届磁共振脑影像结构班(南京,1.12-17)
第八届任务态功能磁共振数据处理班(南京,3.2-7)
第一届任务态功能磁共振提高班(南京,3.9-14)
第三十七届磁共振脑影像基础班(重庆,1.23-28)
第七届任务态fMRI专题班(重庆,1.14-19)
第二十届磁共振脑网络数据处理班(重庆,2月27-3月4日)
第十四届脑影像机器学习班(重庆,3.12-17)
3.2预处理连接体项目
预处理连接体项目(Preprocessed Connectomes Project,PCP)的主要目标是将FCP和INDI数据库中提供的rfMRI数据,利用不同的预处理管道。使用不同的预处理管道是由于在这个研究领域,对于最佳预处理管道没有共识。不同的预处理选择将允许研究者比较结果,从而使我们在以后找到最佳的预处理策略。这个项目的另一个原因是扩大调查人员的范围,他们可以访问大规模的rfMRI数据。每一个都是使用所选择的参数和常用的预处理管道软件的默认设置来实现的。所有预处理的数据都可以在神经成像信息学工具和资源信息中心(Neuroimaging Informatics Tools and Resources Clearinghouse,NITRC)和Amazon S3 bucket上获得。有趣的是,尽管在每个步骤中使用的特定算法及其参数可能有所不同,但由不同的通用软件套装实现的预处理步骤却非常相似,如表3所示。这是由于它们大多数是通过将几种常用的大脑成像工具集成在一起进行功能和结构预处理而开发的。表1列出了与rfMRI分析相关的预处理管道和功能连接软件包所使用的广泛用途的神经影像工具。例如,CCS建立在以下三个主要可用工具上:AFNI,FSL和FreeSurfer与内部开发的功能结合在一起,而C-PAC 通过集成来自AFNI,FSL和ANTS三种工具的许多功能来开发。同样,名为SPM的通用软件工具已用作构建具有特定用途的许多软件套装的基础,例如,BrainVISA,CONN,cPPI,gPPI,SEM,SnPM和TDT(有关更多详细信息,请参见表2)。该项目中的第一个预处理数据来自ADHD-200数据。该数据已通过三个不同的管道进行了预处理:Athena管道(使用AFNI和FSL),NIAK管道(使用CBRAIN上的NIAK)和Burner管道(使用SPM)。即将发布的是使用CIVET流水线的预处理数据。应当指出,CBRAIN平台是一个基于Web的协作研究平台,它使研究人员可以在受控的安全环境中将大型神经影像数据资源,预处理和分析软件工具以及高性能分布式计算设施整合在一起。后来又添加了FCP和INDI数据库中的其他数据集,包括北京增强扩散张量成像数据集,神经反馈头骨剥离的存储库和ABIDE。对于预处理的ABIDE数据,使用了四个不同的软件包,包括CCS,C-PAC,DPARSF和NIAK。除了每个软件套件中使用的默认设置(表3)之外,还包括并排除了两个仍然是争论的预处理步骤,即时间滤波(0.01-0.1 Hz)和全局信号回归,这为每个管道提供了四种不同的预处理策略。此外,还从每个预处理数据中计算出统计导数(例如,局部一致性(ReHo)的幅度,低频波幅(ALFF)等)管道软件需要提供一些要求和特性,这些软件旨在处理大规模的rfMRI数据,如可配置、鲁棒性、可靠、可扩展和出处跟踪。目前,三种主要的神经成像软件工具:SPM、FSL和AFNI在并行化方面有一些进展。通过使用附加的包(如Condor)或平台(如OpenMP)执行它们,一些功能可以在几个中央处理单元核上或几台计算机上并行执行。然而,在常见的神经成像工具(表1)中,参数可能需要手动设置,这是耗时的,不适合大数据分析。然后开发了许多预处理管道软件,以提供用户友好的环境(表2)。不幸的是,其中只有很少的主要设计用于大数据的预处理和分析。并行计算能力可能被认为是开发人员关注的最重要的特征。例如,为了预处理NKI-RS数据集中的418受试者,Dell Blade集群系统中的CCS管道花费了大约15000 个CPU小时。因此,需要在多核计算机或超级计算机上并行执行作业的管道,这使我们能够减少完成分析所需的总时间。C-PAC和PSOM是两个常见的大数据处理软件包。这些软件将常见的神经影像工具中的许多功能链接在一起,形成适当的配置后,可以在高性能计算体系结构上一次运行执行的管道。Bellec等使用ADHD-200数据集测试了PSOM框架的性能,并表明可以将198名受试者的处理时间(总数据大小为7.7G和5153个作业包含在NIAK管道中)从一周以上减少到3小时以下,并有200个计算核。PSOM还提供了另外两个重要功能,这些功能使我们能够处理大数据,即容错和智能更新。具体来说,PSOM将每个作业视为失败作业之前运行多次尝试,而所有失败的作业可以在调查人员终止管道后自动重新启动。此外,如果需要重新开始分析,则仅执行需要重新处理或受更改影响的管道部分,这些部分可以由工具箱自动检测。这两个功能特别有用,特别是在开发阶段(例如,选择最佳算法和管道参数),因为可能需要在多个阶段重新启动管道。但是,此框架并不专注于管道映射,这一关键特性是通过将PSOM管道与具有强大管道映射功能的另一个软件工具(如CBRAIN)进行接口来实现的。
表3 四个不同功能的预处理管道的参数和默认设置
(PC:主成分,WM:白质,CSF:脑脊液)
另一组有趣的大数据处理软件适合于实现并行计算的优点,特别强调使用廉价和强大的图形处理单元(Graphics Processing Units,GPU)。BROCCOLI是这一组中的软件之一,它是用开放计算语言(Open Computing Language, Open CL)编写的。这使得BROCCOLI能够并行运行分析。为了测试BROCCOLI并行化效率,Eklund等人在具有三种不同硬件配置(即Intel CPU,Nvidia GPU和AMD GPU)的多个开放访问fMRI数据集上进行了多个基准实验。与其他三种主要神经成像工具的非线性空间归一化结果相比,具有Nvidia GPU的BROCCOLI可以比FSL和AFNI快525倍,比使用OpenMP的AFNI快195倍。结果支持了并行处理RFMRI数据可以明显更快的分析管道,这对于大数据分析非常重要。然而,这种软件套装也有局限性,例如,BROCCOLI不提供图形用户界面。由于该软件套装是使用OpenCL实现的,因此它对Nvidia GPU性能最好,需要对其他硬件平台(例如Intel和AMD)进行代码优化。Bianes是这一组中的另一个软件,它使用GPU计算所有脑内体素的最高HCP分辨率的体素相关/连接矩阵。该软件还提供了一个分布式文件阅读器,用在ApacheSpark环境下4D NIFTI fMRI数据。通过使用可扩展的平台,我们可以将数据分析和计算任务移动到云服务提供商,例如可以使用GPU加速计算运行Spark框架的AWS云。前两种替代方法可以连续用作要执行功能连接的研究人员的第一和第二起点,他们希望对rfMRI大数据分析,但没有足够的计算资源来获取或预处理大型数据,或者是那些更偏重于数据分析而不是数据采集和预处理的数据。如前所述,最小预处理数据提供了数据质量的最低标准,而更多的信息仍然包含在数据中。如果需要进一步的预处理步骤,使用几个常见预处理软件套装的默认选择参数和设置从PCP中准备的预处理数据,将是进一步数据分析的安全选择,因为他们代表同行评审公认预处理实现。研究人员可以选择适合其应用的通道,甚至可以比较不同通道的结果。另一方面,如果研究者有足够的资源来预处理大规模rfMRI数据,则他们可以使用一种用于预处理大规模rfMRI数据的软件包,如第三种替代方法所述。他们还可以考虑使用最少的预处理管道或来自通用软件包的默认预处理管道来对自己的数据进行预处理。但是,可能需要进行一些修改和其他步骤才能使管道更适合于特定rfMRI数据的独特性以及提出的功能连通性分析方法。例如,基于HCP开发的dHCP最小预处理管道修改了几个预处理步骤,以便在新生儿采集中以低对比度和可变对比度以及高水平的头部运动对数据进行预处理。为了产生针对特定应用的有效和最佳结果,有必要对最佳预处理步骤和参数值进行全面研究。在一些特定的领域,预处理管道需要改进,新的方法将继续开发。由于目前还没有找到最佳预处理管道的解决方案,因此,通过使用系统审查和元分析,在通用软件管道或高质量同行评审研究中达成共识的数据预处理步骤可能是解决方案之一。例如,最近,Caballero和Reynolds提出了一些选择预处理步骤和顺序的指导方针。具体地说,预处理管道可以从指定rfMRI数据开始,然后应用一系列操作,包括生理噪声校正、时间层校正、体积配准和磁场畸变校正。在这个区块中,顺序的选择仍然存在争议,他们建议将这四种操作整合到一个统一的框架中。接下来,可以执行受试者的解剖图像与功能数据的对齐。最后的步骤包括空间平滑,以及干扰回归、时间滤波和头动审查的组合。干扰回归可以在解剖掩码上定义,也可以通过PCA、核PCA和ICA等数据分解技术定义。数据驱动方法的另一个优点是,它还可以同时减少多个噪声波动。然而,有人指出,例如空间ICA不能完全分离生理噪声成分。在ICA分解之前,需要根据外部记录对物理噪声进行去噪。在未来的研究中,仍然需要更多的综合性调查来确定最小和最佳预处理管道的建议和最佳实践。此外,众所周知,数据预处理管道会影响从统计组差异测试和分类模型获得的最终结果,并且很少有系统的研究来探讨这些影响,因此更好地理解是否以及哪些预处理步骤和参数分析方法得出的结果是必要的。这对于确定最佳预处理管道也是非常重要的。例如,Vergara等人评估了几种预处理管道在检测功能网络连接异常以及功能组ICA方法对患者和对照组进行分类方面的效果。对四种不同的管道进行了测试,特别强调了 (1) 头部运动校正的顺序:应用组ICA前;(2) 时间滤波去除相对较高的频率含量。实验数据和仿真数据都被使用。对于真实数据,研究中包括了两个不同的队列:一个队列是轻度创伤性脑损伤患者的对照组,另一个队列是吸烟者和不吸烟者。本研究结果表明,数据预处理管道可以改变最终结果。也就是说,如果在ICA组之前应用运动校正,患者-对照组差异会增加,并且与行为评估的相关性更强。Andronache等评估了使用SCA和ICA方法检测DMN的几个预处理管道的效果。通过将几个预处理步骤(例如,去除与运动参数的协方差,带通滤波等)添加到最小的预处理管道(即,重新对齐,切片定时校正,对MNI空间的归一化和空间,对五个不同的管道进行了测试平滑)。本研究仅使用真实数据,包括意识障碍患者及其对照对象。结果支持了Vergara等人的研究数据预处理管道可以更改最终结果。这项研究的结果还表明,不同的功能连接方法(SCA和ICA)受数据预处理管道的影响也不同。尽管应用大量的预处理步骤后效果会降低,但这可能是由于以下事实:数据中一些有意义的可变性已被删除,而未获得有效结果。预处理管道对其他常用或新颖的分析方法的影响应在今后进行研究。功能磁共振提供了复杂的信号来研究大脑的高度可变和纠缠的活动。能够解析和提取有意义的信息是神经影像学研究的巨大挑战之一。我们可以大致确定两种主要的分析类型:一种侧重于识别功能独立的大脑区域,或通常与特定功能相关的功能子网;第二种侧重于区域集合活动之间的关系。第一种方法的经典例子是分解技术,如ICA和PCA,我们在前面的章节中已经提到过。在这里,我们把重点放在第二种类型上。最相关的例子是产生简化拓扑表示的技术、符合统计力学处理的图论和网络工具,以及五种成熟的拓扑数据分析工具,特别是符合一致性的拓扑分析工具。在下面的文章中,我们简要地说明了它们各自的优点以及它们与大数据分析的相关性。映射器,首先由Singh等人介绍, 是用于直接数据探索的最常用的拓扑工具(表4)之一。它的基本新特性与持续同调相同,源于其代数基础:它通过超越数据点对上定义的标准度量,在介观尺度上恢复拓扑空间的形状。给定一个点数据集,通常是高维数据,首先将空间划分为一组重叠的切片。在这些方法的每一个中,执行局部聚类算法以将点划分为一组单独的聚类。由于切片重叠,因此相邻切片之间会有共同点。然后,可以通过将属于相邻切片且具有非空交集(即,在两个切片中包含一些相同点)的聚类连接在一起,来构建原始数据集的拓扑简化骨架。这种方法通过局部集群的胶合来保持整体拓扑结构。映射器适用于非常大的数据集的分析,因为全局问题(例如,总体聚类结构)细分为许多较小的局部问题(例如,切片内的聚类),这些问题可以并行运行,并且可以仅在最后一步合并。此外,局部聚类仅取决于切片中各点之间的距离,因此,高维数据也有效地投影到(通常较小的)距离矩阵。这些特性使映射器成为分析大型数据的很好工具,因为这种方法可以自然地在大数据分析框架,例如Google的MapReduce中执行。
我们在这里提供了一个最小的概述和现有TDA软件的参考列表,以及各自优点和限制的简短描述。我们进行了全面回顾,包括与大数据分析相关的数据集大小的计算性能和缩放。
尽管映射器具有有用的特性,但据我们所知,只有最近的一项研究将其用于rfMRI数据的研究。Kyeong等使用映射器算法研究大脑功能连通性与ADHD特征之间的关系(来自ADHD-200数据集)。由于ADHD被定义为没有亚型的单一疾病,因此从映射器算法获得的拓扑网络呈现为一个较长的渐进过程。尽管此研究没有显示出映射器算法识别潜在亚型的聚类潜力,但映射器算法产生的拓扑网络可以将ADHD患者与正常对照对象区分开来(P值<0.0005)。此外,使用映射器算法获得的结果应该是相同的,要么对rfMRI数据进行预处理,要么不去除大幅度头部运动的时间点,因为所选目标度量的值几乎相同(r=99)。本研究支持映射器算法的有用特性,并保证了映射器在未来研究脑疾病和疾病的脑功能连接性和特征方面的潜力。为了更详细地讨论这一点,用于rfMRI的标准聚类方法是通过构造一系列空间(或ICA)相干的粗粒度区域,然后将其视为相似性或相关性网络的节点。但是,Zuo和Xing强烈建议按体素进行分析,因为基于解剖结构对来自多个体素的平均信号进行分析可能会影响推导结果的可靠性和解释上的困难。在rfMRI期间获得的活动时间序列的聚类是映射器算法的自然应用。由于其可扩展性,映射器方法将能够直接解决高分辨率体素级别的数据集,而无需对区域进行任何初步的粗粒度处理或将数据重新采样为较低的各向同性分辨率,并且能够展现完整的功能。因此,我们可以使用基于聚类的映射算法,而不是用于rfMRI研究的现有较慢方法:层次聚类,谱聚类,k均值聚类或模糊聚类。此外,聚类被认为是一种探索性数据驱动的方法,用于克服基于模型的分析(例如SCA,ReHo,ALFF和fALFF)的局限性。尽管与ICA和PCA等其他常见的数据驱动方法具有相似的用途,但在系统性fMRI研究中对几种不同聚类和ICA方法的比较表明,聚类优于ICA(即,用于rfMRI研究的频率最高的方法)用于分类目的。虽然PCA的功效在很大程度上取决于rfMRI数据的线性,正态性和高信噪比的假设,但基于聚类的映射器算法没有这些假设,并且已经实现了从大规模数据集中提取特殊的定性信息(例如,提取以前未知的乳腺癌亚型,具有独特的突变特征和出色的存活率)。还请注意,映射器的输出在很大程度上取决于原始数据集的选定切片。换句话说,选择切片定义了对结果网络的解释。这为将现有的全套数据缩减和数据分析技术与映射器结合打开了大门。例如,通过使用数据集沿(组)PCA、ICA或类似分解技术获得的主要方向的投影,即使用数据集本身中完全包含的信息;然而,也可以通过在切片函数中包含有关所研究对象的元信息来增强这一信息,从而使该工具在大型复杂数据集中的数据探索和特征提取方面具有极大的通用性。图论是网络的数学分析形式,它描述成对的关系,即成对的节点和链接,通常有权重。在过去的十年中,网络凭借其强大的表达能力和简单性,已成为描述大脑的物理结构及其活动方式的最受欢迎的工具之一。确实,通过网络表示,有可能发现以前很难描述的大量脑功能特性:例如,我们现在知道,特定的功能子网对应于已知的认知和感觉模态,大脑对病变和微扰的鲁棒性源于现实世界网络显示的小世界性和强大的局部聚类系数的组合,或者大脑中的信息在紧密集成的模块中进行处理,然后通过长距离的连接共享信息。直到最近,功能网络中的大多数研究都集中在小型碎片上,因为它们提供了解剖学上可解释的描述,并且还简化了图形度量的计算,这通常在计算上非常麻烦。但是,由于增加的计算能力,优化的网络分析库和精确的测量的综合作用,这种趋势正在改变。例如,正在开发第一个通过Spark架构分析大型神经网络数据的工具,以及能够在全体素矩阵级别处理,分析和关联fMRI数据的可扩展技术,从而事实上可以缩放网络技术以达到大数据的规模。尽管取得了成功,但是网络只能将多体相互作用描述为成对相互作用的总和,这种假设并不总是得到证实,并且在某些应用中可以提供所研究系统的有偏差表示。另一种TDA技术(Topological Data Analysis,持续同调)给出了一种对描述高阶相互作用的需求且逐渐流行的答案。与通过映射器获得的信息相比,它可提供有关数据集形状的更深入,定量的信息,并且比网络提供的信息更丰富的描述,代价是解释的复杂性增加。持续同调是通过对点的邻域之间的关系进行一系列逐步更精细的近似(称为过滤)来构建整个数据集的多尺度汇总而起作用的。过滤是考虑所有可能阈值的关键点,避免了图论中的主要缺点之一。此外,持续同调用简单复合体的语言表述,该复合体通过构造来描述多体交互模式,因此超出了基于两点交互的网络描述。因此,它已在神经科学领域得到广泛应用,并直接应用于健康和改变或病理性的大脑状态,空间模型的rfMRI相关网络的和动态功能连接的研究。即使直接从网络数据开始,持续同调也能够提供从标准组合或统计力学角度来看不容易被发现(有时甚至根本无法获得)的信息。有趣的是,一旦检测到拓扑特征,动力学方法就可以对它们的解释作出重要贡献,例如,通过投影来实现更简单的表示,以及通过构建最小拓扑随机零模型来建模哪些应该被认为是重要的结构和噪声。但是,应用到大数据集的主要限制之一是,如果简单地计算持久性同源性,那么在计算上会很麻烦。但是,最近的算法进步极大地降低了其复杂性,并可以使用并行算法(例如,频谱序列算法,块算法等),因此,持续同调现在可以用于处理非常大,较高的维数据集,例如fMRI数据。此外,最近在比较从不同对象和群体的持续同调中获得信息的方法方面取得了进展:Bubenik等人介绍的方法允许直接比较不同对象的持久性状况,而核化技术将允许将机器学习技术应用于持续同调。持续同调虽然应用前景可观,但作为数据科学的一个分支,仍处于起步阶段。它为我们如何处理数据提供了一个全新的视角,并带来了一种基于代数拓扑的新语言。然而,为了充分利用其在大型rfMRI数据集研究中的潜力,仍然存在着挑战。第一个最明显的是必须不断提高持续同调的计算可扩展性。虽然通过映射器进行拓扑简化是廉价和可扩展的,但它也不能直接产生持续同调提供的定量输出。因此,进一步改进现有的实现是至关重要的,特别是在有效的简化复杂度的方向上,不仅保留了全局级别的拓扑信息,而且还保留了同源类的实际定位。第二个挑战是降低来自TDA社区之外的从业者的入门成本,并寻求将这些技术应用于他们的具体案例研究。虽然所需的数学背景是重要的,但拥有用户友好和功能完善的软件包用于fMRI分析已经在这一方向上走了很长一段路。rfMRI研究已进入“生物医学大数据”时代,这是由于共享和开放访问大神经影像数据带来的便利,包括1000个功能连接项目和人类连接体项目。这些大型rfMRI数据确实显示了大数据的体积,准确性,多样性,速度和价值。因此,迫切需要开发数据预处理管道和分析大rfMRI数据的方法。对于数据预处理管道,本文提出了三种访问大型预处理rfMRI数据的方法。如果研究人员想对大型rfMRI数据进行分析,但缺乏足够的资源来获取或预处理它们,或者更侧重于数据分析而不是数据获取和预处理,则前两种方法是:使用最少的预处理管道和预处理连接体项目进行后续分析。如果调查人员有足够的资源来预处理大规模数据,则可以选择为预处理大数据而设计的一套软件。但是,在未来的研究中,非常有必要对数据预处理步骤对从功能连接分析中获得的结果的影响进行全面研究,并广泛开发用于大规模数据的新预处理软件包。对rfMRI数据进行预处理后,rfMRI研究中通常使用几种方法来检查功能连接性,例如SCA,PCA,ICA和聚类方法。为了使这些方法能够识别大规模的大脑网络,最近进行了更复杂的研究。但是,我们仍然应该考虑现有通用方法的一些局限性,而新方法对于大型rfMRI数据分析必不可少。我们提出了一种称为“拓扑数据分析”的技术来实现rsfMRI功能连接。许多TDA属性清楚地表明了将不同TDA方法用作大型rfMRI数据分析方法的潜力。基于RFMRI的TDA的临床应用应在未来的研究中探索。Resting-State fMRI Functional Connectivity:Big Data Preprocessing Pipelines and Topological Data Analysis