深度学习在婴儿大脑的磁共振图像分析中的作用(下)

在前天的推文中,我们已经学习了深度学习在等强度阶段(6-9月龄)的婴儿脑组织分割和神经发育障碍的症状前疾病预测这两个方向上取得的成绩,但我们也清楚当前研究仍旧处于前期阶段,想在后续研究中获得更多成果还需要克服许多困难,那么我们今天来看一下深度学习方法在婴儿大脑的脑组织粉盒和神经发育障碍预测方面都面临哪些挑战,以及我们该如何应对。本文发表在Magnetic Resonance Imaging杂志。(可添加微信号siyingyxf18983979082获取原文),本文上半部分解读点击以下链接:

深度学习在婴儿大脑的磁共振图像分析中的作用(上)

婴儿MRI面临的挑战

随着深度学习领域的最新发展,如上所述,已经提出了许多创新的方法来改善婴儿MRI脑图像处理和分析。深度学习的成功归功于其以数据驱动的方式发现一般形态和纹理特征的能力,这种方式可以处理婴儿MRI脑图像中的各种可变性,这些可变性源于复杂的脑解剖和组织外观、成像采集协议和病理异质性。在本节中,我们将讨论在MRI应用中利用深度学习的一些公开挑战,并讨论应对这些挑战的未来方向。

4.1数据量

在儿科应用中,可用的数据集特别小,因为在这样一个脆弱的人群中进行招募要比在成年人或青少年中困难得多。这限制了深度学习方法实现其全部功能的能力,尤其是与利用大规模数据集(例如ImageNet)的计算机视觉应用的成功相比而言。在婴儿MRI脑成像中,缺乏公开可用的数据集和高质量的标记数据会带来其他挑战,需要解决。然而,尽管训练数据集很小,用于医学成像数据的深度学习在许多任务中报告了令人相当满意的性能水平。为了解决医学图像分析中训练需要多少数据的问题,最近的研究表明,所需的数据集大小实际上取决于在研究过程中看到的预期可变性,并且大规模数据集并不总是必要的。实际上,由于不同患者的总体图像外观均一,因此使用较小的医学成像数据集,可以完成准确的分类。而自然图像则接近无限多样性(例如,不同品种的狗,颜色和摄像头姿势)。然而,在婴儿数据中存在NDD的情况下,生命第一年MRI图像的异质性带来了与自然图像类似的挑战,因此有限的数据集一直是在开发有用的深度学习预测模型时遇到的重大障碍。当前,人们正在努力通过公共研究数据库(例如,用于自闭症研究的NDAR)提供数据,这将允许深度学习模型发现NDD中更通用的特征。同时,类似于计算机视觉任务,已经尝试通过精心设计深度学习框架(例如,用于更深层的较小过滤器),不同架构分组或超参数优化来减少对额外训练数据的需求。
为了避免在有限数据集的情况下,从头开始训练深度学习模型,一种替代方案是使用例如标记自然图像的大数据集来微调已经预先训练的深度学习模型,这种技术被称为迁移学习。在Tajbakhsh等人最近的一项研究中表明,事实上,将知识从自然图像转移到医学图像是可能的,即使源分布和目标分布之间存在相对较大的差异。在针对不同应用和不同成像方式的实验中,他们证明了对深层CNN进行微调对于医学图像分析是有益的,其表现水平类似于经过完全训练的CNN,在数据集有限的情况下甚至表现优于经过完全训练的网络。此外,根据应用之间的相似性和可用于调整的标记数据的数量,微调级别(即要重新训练的层数)在一个应用与另一个应用之间是不同的。在3D婴儿MRI应用中有效利用此类2D预训练网络仍然是一个挑战,因为这种方法会忽略与2D平面正交的方向的解剖背景。最近,为了解决这个问题,Xu等人提出通过堆叠连续的2D切片来组合类似3D的上下文信息以形成多通道图像,该图像用作在ImageNet上进行预训练的FCN的输入,以进行自然图像分类。这种方法成功地提供了新生儿和成人大脑3D磁共振图像的快速分割,但是使得结果对MRI中对象的头部方向敏感。
另外,对原始数据进行随机变换可以有效地增加数据集大小,这是一种称为数据增强的技术,该技术可通过简单的变换(例如翻转,旋转,平移和裁剪,甚至向图像添加噪声)来使用。数据增强有助于增加训练样本的有效大小,从而通过在训练期间呈现原始数据的随机变化来减少过拟合。但是,由于婴儿大脑的高度异质性,尤其是在存在神经发育障碍的情况下,增加婴儿MRI数据集仍然具有挑战性。因此,仍然需要开发数据的扩充方法,以应对婴儿数据中出现的挑战。

4.2类别不平衡

另一个挑战是医学应用中的类别不平衡问题。类别不平衡是指与典型或病理案例相比,训练案例的数量偏向典型。当为患有神经退行性疾病的婴儿开发诊断或预测方法时,由于神经退行性疾病的患病率通常较小(例如在ASD中,普通人群≤2%,高危人群≤20%)。人们已经认识到,类别不平衡问题对训练深度学习模式产生了实质性的负面影响。对于不平衡的数据集,深度学习模型倾向于集中学习具有大量例子的类别,这导致具有少量例子的类别性能较差。在基于医学图像数据的诊断环境中,错误分类成本通常是不相等的,将患病样本(少数类别)分类为典型(多数类别)意味着应避免的重大后果。目前,关于类别不平衡问题的影响以及如何最佳地缓解这一问题,还没有标准化或共识,这可能会影响医学影像研究的可重复性和准确性。
在经典机器学习中,类别不平衡是一个经过充分研究的问题,并且已经提出了几种方法来解决该问题。在传统浅层模型的情况下,用于解决类不平衡的方法并不总是适用于复杂医学应用上的深度学习应用。目前的文献表明,与经典的机器学习算法相比,缺乏针对深度网络的研究。当前解决类别不平衡的方法可以分为三种主要类型:
(1)通过改变类别分布对训练集进行操作的方法,(2)在保持训练数据集不变的同时在分类器或算法级别上进行操作的方法,以及(3)结合了上述两个类别的混合方法。
过采样:在数据层面上,过采样方法通常用于深度学习,其基本形式被称为随机少数过采样,其中来自少数类的样本被随机复制。然而,这种简单的过采样方法会导致过拟合,因此需要更先进的方法,如SMOTE或合成少数过采样技术。在这种方法中,人工样本是通过对相邻数据点进行插值来创建的,这在婴儿MRI应用中成功地平衡了训练集。局部合成实例(LSI)是Brown等人提出的SMOTE的一种替代方法。增加高维小样本量(HDSSS)婴儿MRI数据,以生成保证接近真实数据实例的实例。最近,SMOTE的几个扩展被提出,这可能有望更好地处理婴儿MRI数据集。这种扩展包括关注类别之间边界上的关键数据点。为了减少类间和类内的不平衡,基于聚类的过采样方法将首先对数据集中的样本进行聚类,然后独立地对每个聚类进行过采样。其他方法利用增强技术来识别硬实例,这些硬实例又将用于生成所需的合成数据。此外,已经为深度学习框架提出了过采样方法,以确保每个小批量的类别均匀分布。
欠采样:欠采样也可用于解决类不平衡问题,方法是从多数类别中随机移除样本,直至达到类别平衡。然而,在婴儿MRI数据集有限的情况下,这种技术不太受欢迎,因为它丢弃了一部分可用的高价值数据。已经提出了一些方法来克服这一点,即仅通过去除类别之间的边界附近的冗余示例来解决或重新标记一些多数类别样本。这可以在深度学习模型中通过使用损失函数的加权来实现,通过引入平衡因子来强制少数类别样本的学习。深度学习模型对成本敏感的另一种修改是以某种方式调整学习率,允许引入更高成本的示例对权重的更新做出更大贡献。通过这种方法获得的结果类似于上述过采样。
一类学习:在具有挑战性的婴儿MRI数据集中实现类平衡的另一种算法策略是 “一类学习”。在这种策略中,重点是训练模型以识别阳性样本,而不是区分类别。这可以使用深度学习自动编码器来实现,该深度学习自动编码器被训练来执行自动关联映射,然后可以使用定义的重构误差(例如误差的平方和,欧几里得距离或马哈拉诺比斯距离)对新样本进行分类。
已经提出了结合先前描述方法中,多种技术的各种混合方法来解决类别不平衡问题。例如,SMOTEBoost是一种结合了增强想法和SMOTE过采样的方法。最近,引入并成功应用于医学图像分割任务的CNN训练的技术是两阶段训练。在这种方法中,首先使用过采样方法在平衡数据集上训练网络,然后在原始(不平衡)数据上微调输出层,同时保持在第一阶段中使用的相同超参数。

4.3解释

深度学习算法在许多图像识别任务中已经超过了人类的性能水平,并且在涉及婴儿MRI数据的医学图像分析应用中,深度学习算法的性能可能类似。这样的性能水平是通过具有数百万个权重的高度灵活的模型实现的,该模型可以通过优化损失函数来学习输入数据的内部表示。但是,计算特定权重或输入如何影响最终模型性能仍然是一项挑战。对于成功部署深度学习模型以在临床环境中对NDD进行早期预测而言,此类解释至关重要。
在医学图像分析领域的分类应用中,特征重要性通常通过绘制线性分类器的权重或绘制与这些权重相关联的p值来确定和可视化。这种方法忽略了与输入图像的联系,并已被证明会导致误导性解释,也不适用于非线性深度学习模型。
最近,越来越多地提出了用于解释和理解深度学习模型的方法。一种通过生成可解释的可视化来洞察深度学习模型是什么的方法,这些可视化捕捉了训练后网络学到的高级概念。已经提出了两种方法来实现该目的:(1)在输出层找到最大化类别得分的输入图像,以便可视化网络如何表示特定类别,或(2)可视化用于解释特定类别的特征图,该特征图解释了响应于特定输入图像的网络分类或决策。第二种方法更适合于在婴儿MRI数据集上训练的模型,尤其是在NDD中训练的模型,NDD本质上是异质性疾病,因此需要特定受试者的解释。
特征图(即Saliency Map):实现这种样本特定解释的一种方法是通过可视化特定于给定图像和类别的特征图。这是通过确定类别分数对像素值小扰动的敏感度来实现的,该敏感度是通过单个反向传播过程来计算类别分数相对于输入像素的偏导数来计算的。通过使用分类CNN将它们用于弱监督的对象分割,证实了此类特征图的有用性。另一个解释框架叫做DeepLIFT,是由Shrikumar等人提出的。其中,重要性分数是根据输出和一些参考输出之间的差异(相对于来自相应参考输入的输入差异)所作的解释来分配的。这种利用参考点差异的思想允许信息传播,即使在零梯度的情况下,这在深层网络具有饱和激活的情况下是有用的,如sigmoid或tanh。Zintgraf等人提出了另一种应用于MRI脑图像的可视化方法,其中使用了条件多变量模型。在这种方法中,输入像素的重要性是根据正确的分类概率估算的,该概率是遮挡输入图像相应部分patch的函数。因此,当特征未知或被遮挡时,可以基于输出类别概率如何变化来估计该特征的重要性。这种方法可以通过使用更复杂的条件采样生成模型,以及通过将空间信息(例如在婴儿MRI图像中)结合到条件分布中来进一步改进。
分层特征活动图:其他类别的方法尝试理解分类器做出的单个决策,同时假设黑匣子分类器或假设特定的决策结构。Zeiler等人介绍的一种流行方法,是专门设计通过可视化中间层中的特征活动来理解CNN的。这是使用Zeiler中所述的反卷积网络来完成的,该网络具有与CNN模型相似的组件(即过滤和池化操作),但其反方向将特征图映射到相应的输入图像。与反卷积网络不同,不会学习权重,只会将其用于探究已训练的CNN。通过使用在CNN模型中学习的滤波器的转置来执行反卷积操作,同时通过在一组变量(也称为开关)中记录每个池化区域内最大值的位置,来逆转不可逆的最大池操作。所获得的中间特征层的可视化也显示出具有诊断作用,有助于识别模型的问题,并提出更好结果的替代架构。这种方法的一个限制是,它只能在每一层显示单个激活,并且仍然需要显示层中存在的联合活动方法。
上述解释方法可以对婴儿预测深度学习模型学到的内容产生有价值的见解;但是,对于如何评估这些方法进行基准测试却没有共识。一种方法是在给定应用的上下文中评估可解释性,或使用代理来提供可量化的评估。理解模型的工作方式在医学应用中尤其重要,因为在医学应用中,所研究疾病的潜在生物学病理通常仍在研究中,并且做出错误的决定可能会付出高昂的代价,因为它可能导致错误或次优的后续干预措施

5.建立生成模型

虽然研究者对最近深度学习模型在各种任务中达到接近人类水平的性能时仍旧存在偏见,但即使是最先进的算法,在分类器的鲁棒性方面确实仍是一个未得到解决的问题。因为它表明这种模型可能对输入数据中的小扰动是不稳定的。泛化性能的这种缺乏可归因于判别模型和生成模型之间的差异。仅当标记的数据足够多时,判别模型才能很好地泛化,这在婴儿医疗应用中是一个关键的限制因素,在婴儿医疗应用中,收集大量带注释的平衡训练数据非常重要,但是遇到挑战。在这种情况下,除了标记数据外,还可以利用未标记数据的生成模型可以缓解该问题。然而,传统的生成模型显示无法扩展到高维数据集。
通过深度学习模型对生成模型进行参数化的最新进展,再加上随机优化技术的发展,已经允许对复杂的高维数据进行可扩展的建模。多年来,提出了许多革命性的深度生成模型,包括受限玻尔兹曼机(RBM),深度玻尔兹曼机(DBM),深度置信网络,变分自动编码器(VAE)和生成对抗网络(GAN)。不管是哪种类型的生成模型,目标都是从训练集中学习潜在的、未知的真实数据分布,这反过来又用于生成具有一定可变性的新数据点。几乎不可能隐式或显式地了解给定数据的精确分布,因此,目标是对与精确数据分布非常相似的分布进行建模。为了实现这一点,神经网络的能力被用来学习一个函数,该函数可以将模型分布近似为精确分布。深度生成模型有望为有限和不平衡数据集相关的问题提供解决方案。目前,利用这些方法来解决与从婴儿MRI数据集学习相关的挑战仍然是有限的。下面,我们将讨论当前的深度生成模型,并描述如何调整它们来缓解现有婴儿MRI数据集的挑战。
目前,变分自动编码器(VAE)和生成对抗网络(GAN)是最常用的架构,因为它们能够提供高效和准确的模型。VAEs使用贝叶斯推理编码器网络和解码器网络明确地试图近似真实的数据分布,这提供了自编码器的概率版本。特别地,VAE对输入数据的编码增加了一个约束,即编码的潜在空间变量被强制近似归一化的高斯分布。解码器网络将这个潜在空间映射到输出数据,并且通过最大化数据对数似然的下限来训练组合网络。使用VAE的一个优势是,存在一种清晰明了的方法使用对数似然方法来评估模型的质量。但是,由于涉及的假设和逼近力很强,因此它们可能会导致模型不理想,并且生成的图像比GAN生成的图像更模糊。GAN及其扩展已显示出提供了新颖的方法来应对具有挑战性的医学图像分析问题,例如医学图像降噪,重建,分割,模拟和分类。此外,GAN具有非凡的逼真度创建合成图像的能力有望解决医学成像领域中标记数据的稀缺性问题。与VAE不同,GAN隐式指定了概率模型,该模型描述了直接生成数据的随机过程。这样的生成模型的框架可以提供清晰而引人注目的图像,而不必指定似然函数。GANs包含两个同时训练、相互竞争的模型,可以是深度学习模型,比如CNNs。GAN的训练是基于博弈论的场景,两个玩家在零和游戏中竞争。一个网络是生成合成图像的生成器,而另一个网络被称为鉴别器,其任务是确定输入图像是真实的训练图像还是来自生成器的合成图像。在这种对立的安排中,生成器是通过优化极小极大目标来训练的,在训练结束时,希望鉴别器不再能够识别真实图像和合成图像之间的差异。
这种GAN设置的优势在于可以通过反向传播训练生成器和鉴别器,而无需繁琐的推理和马尔可夫链。尽管GAN表现出优于其他生成模型的基本优势,但训练GAN却很困难,因为它可能导致振荡行为,并遭受称为模式崩溃的问题,其中所有潜在空间输入都映射到同一数据点。由于训练过程中梯度的消失,GAN可能还会生成不稳定的模型,从而为相同的输入生成不同的输出。如图13所示,已经提出了其他条件变量以及各种扩展,以克服香草GAN架构的局限性,并已成功地应用于医学图像分析领域。
图13.用于医学图像分析中不同任务的生成对抗网络(GAN)变体的一些示例说明。
GAN变体:例如,深度卷积GAN (DCGAN)结构被提出,其中发生器和鉴别器都利用FCN结构。DCGAN采用批量归一化和泄漏ReLU来稳定网络性能;然而,它仍然没有解决模式崩溃问题。在Mirza和Osindero提出的条件GAN (cGAN)结构中,发生器带有随机噪声和一些先验信息,这被证明可以提高训练稳定性和生成输出的质量。快速高质量的风格转移,即按照其他图像的风格重新组合图像的任务,可以使用另一种称为马尔可夫链的条件链结构来完成。MGAN架构利用预先训练的CNN网络(如VGG19)来提取特征,以帮助保存原始图像内容,同时出色地传输风格。为了发现两个图像域之间潜在的联系,朱等人提出了另一个GAN变体cycleGAN其中将循环训练算法应用于不成对的数据,以提取转换到另一个图像域所需的一个图像域的关键特征。辅助分类器GAN框架是由Odena等人引入的,作为cGAN架构的替代方案,鉴别器的任务是重构先验信息,而不是将其提供给发生器和鉴别器网络。为了克服训练GANs时的模式崩溃和不稳定问题,Wasserstein-GAN (WGAN)架构使用推土机距离(Earth Mover (ME))或Wasserstein-1距离,而不是原始GAN框架的Jensen-Shannon(JS)距离,来比较生成的图像和真实图像的数据分布。尽管WGAN提供了这些理论上的优势,但在实际情况下,它预计会导致收敛缓慢。最小二乘GAN(LSGAN)是另一种GAN变体,它是通过将一些参数添加到损失函数中以克服梯度消失的方法来解决GAN的不稳定性问题。
医学图像分析中的GAN:已经提出了各种基于GAN的体系结构来解决医学成像问题。例如,GAN用于通过无条件或有条件地合成医学图像来解决医学成像中平衡标记数据的稀缺性。无条件GAN已显示出能够合成逼真的医学图像的能力,可以帮助解决诸如缺少标记数据,类别不平衡,数据扩充和数据模拟的挑战。例如,经过DCGAN训练显示,它能够学习从少量样本中生成高分辨率的2D T1w MRI脑图像。另一方面, 有条件的GAN框架通过对诸如元数据之类的先验知识而不是仅对噪声进行条件化来执行图像合成。在聂等人看来医学脑CT图像由相应的MRI图像合成,使用一个网络将3D FCN级联与GAN相结合,并消除了对成对训练数据的需要。Wolterink等人建议使用cycleGAN架构来实现同样的目的。最近,Yang等提出了一个2D MRI跨模态生成框架,该框架利用cGAN架构来应对各种MRI预测任务。结果表明,所提出的生成框架可以为先前开发的基于判别的深度学习MRI转换方法提供有效的替代方法。
GAN架构还可以为当前的分割技术提供可行的替代方案,该技术利用U-Net架构生成器和组合的多任务损失函数。薛等人提出了一个基于U-Net GAN的框架,称为SegAN ,其中使用多尺度损失函数学习像素相关性。另外,GAN的训练策略被Moeskops等采用,增强了他们的FCN分割方法的性能,与Zhao等类似表明,使用一种被称为Deep-supGAN的建议架构,合成图像信息可以增强脑MRI图像中骨结构的分割。异常检测是医学成像的另一个领域,可以利用GANs来克服对大量标记训练数据的需求。特别地,可以先在正常图像上训练GAN,然后将其应用于患病图像,从而导致不完整的重建,该重建可以用于恢复异常的图像区域。陈等中给出了一个示例其中,一种基于无监督GAN的架构称为AnoGAN 被改编并应用于MRI脑图像,以发现与所研究疾病相关的脑区域,进而可用于分类目的。最后,GAN还可以用于识别缺乏足够图像质量或覆盖范围的图像,作为自动识别不可用图像的方法。尽管近来GAN已被有效地用于医学图像分析中的各种任务,但是仍然缺乏在原始欧几里得图像域或非欧几里得特征域中将此类技术应用于婴儿数据的研究。鉴于GAN的潜力,在我们的研究中,我们正朝着这一目标努力。
总结:
尽管基于深度学习的方法在医学成像应用中取得了长足的进步,但仍然存在一些未解决的问题,并且在婴儿MRI数据中应用的方法相对较少。由于整个图像的组织外观不均匀,从新生儿到1岁的受试者的扫描中图像外观的可观变化以及低信噪比设置,婴儿期的MRI图像都面临许多挑战。一方面,这些挑战可能解释了出版物的相对匮乏。另一方面,使用非深度学习方法很难应对这些挑战,而深度学习的潜力很可能使研究人员得以克服。尤其是在神经发育障碍的预测分析中的应用,获得了很高的回报,并且有望允许对症前治疗干预措施,从而可以在以后大大缓解疾病症状。
在本文中,我们介绍了目前在婴儿MRI环境中成功应用深度学习方法的两个应用实例,即婴儿等强度期脑组织分割和自闭症谱系障碍症状前疾病预测。这两种应用都是优秀的例子,传统的图像分析和机器学习方法不够强大,但是深度学习方法由于能够学习可变的异构输入数据中的非线性复杂关系而非常成功。
当前仍旧存在许多开放的挑战,例如低数据量的限制、类别不平衡问题以及由此产生的深度学习解决方案缺乏可解释性。我们讨论了如何调整现有解决方案来解决这些问题,以及生成模型如何成为解决前两个挑战的特别强有力的竞争者。这些解决方案尚未在婴儿MRI数据中得到显著应用。
(0)

相关推荐