使用多模态脑部扫描数据的自动脑肿瘤分割 / 开普饭

可靠的脑肿瘤分割对于准确的诊断和治疗计划至关重要。脑肿瘤的手动分割是一项非常耗时，昂贵且主观的任务，因此非常需要实用的自动化方法。但是由于脑肿瘤在位置，形状和大小方面高度异质，因此几十年来开发自动分割方法一直是一项艰巨的任务。本文旨在回顾使用多模态MR图像进行脑肿瘤分割的自动化模型的发展。为了能够在不同方法之间进行公正的比较，本文针对脑肿瘤分割中最著名的基准--BraTS挑战--提出的模型进行了研究。分析了BraTS 2012-2018发布的挑战以及每年采用的最先进的自动化模型。研究了这些自动化方法自2012年以来的变化趋势，并分析了影响不同模型性能的主要参数。本文发表在IEEE REVIEWS IN BIOMEDICAL ENGINEERING杂志。

思影做相关的肿瘤影像文章解读可浏览以下链接（直接点击即可浏览，我个人比较推崇2篇Neuro-Oncology杂志的两篇及Lancet Oncology的文章，已标红）：

Radiology：脑部MRI影像组学:转移瘤类型预测的应用

神经放射学诊断中的MRI数据分析

AJNR:深度学习在神经放射学的应用

Neuro-Oncology：对脑胶质瘤IDH突变状态进行分类的一种新型的

Neuro-Oncology：深度学习算法全自动评估脑胶质瘤负荷

Lancet Oncology：利用人工神经网络对神经肿瘤学MRI成像进行

索引词: 脑肿瘤分割，多模态MRI，机器学习，卷积神经网络

1. 介绍

脑肿瘤的发病率是影响全球死亡率的重要因素。据脑癌治愈基金会称，在澳大利亚，40岁以下因脑肿瘤而死的人比其他任何癌症都要多。此外，在澳大利亚其他类型癌症的存活率显着提高的同时,脑肿瘤的存活率却依然很低(30年内没有发生显着变化)。世界卫生组织（WHO）按细胞来源和行为对脑肿瘤进行分类.许多非恶性脑肿瘤被分类为I级或II级，也被称为低度（low grade, LG）肿瘤，恶性肿瘤被分类为III级或IV级，被称为高度（high grade, HG）。与HG肿瘤的最大预期寿命只有两年不同，LG肿瘤不会严重影响患者的预期寿命。

从神经影像学方法对脑肿瘤进行分割是改善疾病诊断，治疗计划，监测和临床试验的关键步骤。需要可靠的脑肿瘤分割来检测肿瘤的位置和范围。然而，脑肿瘤的准确分割极具挑战性，这些肿瘤几乎可以以任何形状和大小出现在不同的位置。另外，它们通常对比度差，并且肿瘤的强度值可能与健康的脑组织的强度值重叠。因此，将健康组织与肿瘤区分开来并不容易。解决此问题的常用方法是整合从多种MR模态中获取的信息，例如：T1加权MRI（T1），加造影剂的T1加权MRI（T1c），T2加权MRI（T2）和液体衰减反转恢复（FLAIR）MRI。

根据所需的人机交互程度，脑肿瘤分割方法主要分为三类：手动，半自动和全自动分割。在MR图像中手动分割脑肿瘤是一项非常艰巨的任务，既耗时又受评估者差异的影响。因此，在过去的二十年中，可靠的脑肿瘤自动和半自动分割技术引起了人们的广泛关注，并产生了数百种不同的算法。这些算法中有许多是在私有数据集上实现和评估的。私有数据集在输入数据（使用的成像方式），脑肿瘤的类型和疾病状态（治疗前或治疗后）方面差异很大,以至于很难比较所提出的分割方法的性能。为了解决这个问题，自2012年以来，医学影像计算和计算机辅助干预协会（MICCAI）发起了多模态脑肿瘤影像分割挑战（BRATS）。BraTS数据库包含大量的多模态脑部扫描，可公开获取，并用于开发和测试最新的脑肿瘤分割算法。

这些算法可以大致分为两类：

i）利用组织的空间分布及其外观的生成模型，为此需要通过概率图谱图像配准获得先验知识；

ii）通过从手动注释的数据中学习特征，根据图像特征对脑体素进行分类的判别模型。

到目前为止，生成模型在BraTS提交中尚未像判别模型那样流行，因为它们没有达到与判别模型一样高的分割精度。因此，这里仅回顾BraTS中基于判别模型的算法。

在本文中，指定了BraTS挑战并描述了其数据集。接下来，将回顾2012年至2018年提交给该挑战的模型。提供每年最成功的分割方法的统计信息（就实现的最高准确度而言），并对这些模型进行更详细的说明。

除了提交给比赛的模型外，还使用了挑战赛之外的利用BraTS数据集开发的其他模型。本文讨论了这些模型中高性能的方法。尽管此调查的主要重点是学习和分割模型，但也介绍了其他方面，例如预处理和后处理步骤，适当的训练超参数，数据扩充，适当的损失函数以及模型整合。

2. BRATS 挑战规范

BraTS挑战赛于2012年首次举行，此后每年都作为MICCAI会议的一部分进行。参与者在线注册挑战以便访问数据集。他们需要在测试数据集上评估其模型的分割性能，并提交描述初步结果以及分割方法的简短论文。组织者每年提供两个不同的数据集：一个训练数据集（带有用于开发分割模型的注释）和一个测试数据集以测试算法。测试数据仅在特定时间范围内可用，然后参与者提交其结果。

自BraTS 2017起，验证集也已包含在挑战数据集中。参与者将此数据集的分割标签上传到组织者的服务器，以进行评估和微调其算法。没有公开此数据集以及测试数据集。尽管可以多次上传来自验证数据集的生成标签以进行评估，但最终参与者的排名仅基于测试数据集的一次提交。所有参赛作品均以Dice分数（DSC）和Hausdorff距离为评价指标，对三个类别的肿瘤(全部肿瘤,增强肿瘤和肿瘤核心)进行了计算（在第三部分和图1中讨论了更多细节）。

图1.带有手动注释的三种成像模式（A = FLAIR，B = T2，C = T1c）上的肿瘤外观，以及右侧的三个标签的融合（D）。从左到右：全肿瘤（黄色），肿瘤核心（红色），增强肿瘤核心（浅蓝色），核心的囊性坏死成分（绿色））。

Dice得分将真实区域和预测区域的重叠面积与两个区域的总面积进行比较。Dice得分1.0表示完美的分割。使用以下公式计算Dice得分：

其中Ytrue是真实，Ypred是预测标签，并且加入一个小数ε，用于避免被零整除。

BraTS组织者还使用Hausdorff距离来评估分割边界之间的距离。此度量标准计算预测标签表面上的所有点（p）到真实标签的点（t）的最短最小平方距离d（p，t）中的最大值，反之亦然。使用以下公式计算：

其中sup表示最高，而inf表示最低。

BraTS组织者使用这两个指标来对挑战参与者的分割任务模型进行排名。为了评价算法确定肿瘤亚区域的潜在过度分割或不足分割，自BraTS 2017起也使用了敏感性和特异性指标。

BraTS挑战已从单纯的脑肿瘤分割问题发展到2014年疾病进展评估的第二项任务。此任务巩固了BraTS挑战的临床意义。在2017年，增加了预测挑战，其形式是根据接受脑肿瘤切除的患者的术前MRI扫描来估计患者的总体生存率（OS）。为此，还提供了163个训练案例的生存期（以天为单位）。参与者利用他们预测的分割图从MRI扫描中提取适当的放射学特征。然后使用机器学习模型对提取的特征进行OS预测分析。

3.自2012年以来的BRATS数据集及其演变

2012年，该数据集被创建时包括临床和合成脑部扫描。临床训练数据包括10名LG和20名HG脑肿瘤患者的MR扫描。脑部扫描是治疗前和治疗后的混合图像，这些图像是使用具有两种不同场强（1.5T和3T）和不同扫描方案（例如2D或3D）的不同MR扫描器在几年的时间内扫描的。数据集中的每个主题都以四种方式进行扫描：T1，T1c，T2和FLAIR。这些模态与T1c MRI严格融合在一起，并重新采样为1mm各向同性分辨率。所有图像都被剥去了头骨。为了标注这些图像，定义了四种不同类型的肿瘤内结构：“水肿”，“非增强（实心）核心”，“坏死（或充液）核心”和“增强核心”（图1）。专家评分者使用注释协议手动注释每种情况（如图1所示）。然后将所有评估者的分割结果融合在一起，以针对每个主题获得单个共识分割。该分割标签被视为数据集的真实标签。BraTS组织者针对手动分割的评分者间的变异性进行了实验（针对BraTS12和BraTS13数据集）。对于全肿瘤，肿瘤核心和增强肿瘤，使用训练数据集报告的评分者/共识者分割的平均Dice得分分别为0.91、0.86和0.85。这些值提供了自动化方法上限的估计值。

表 1 数据集规范

另一方面，合成数据由25个HG和25个LG脑肿瘤扫描的模拟图像组成。这些图像是使用TumorSim软件模拟的。模拟数据的模态和分辨率与临床数据集的模态和分辨率一致。BraTS 2012的测试数据集包含11个HG和4个LG真实案例，以及10个HG和5个LG模拟图像。

为了评估分割算法的性能，将不同结构分为三个相互包含的肿瘤区域：

i) “整个”肿瘤区域，包括所有四个肿瘤结构

ii) 肿瘤“核心”区域，包括除“水肿”以外的所有肿瘤结构

iii) 仅包含“增强核心”结构的“活动”肿瘤区域

BraTS 2013训练数据集与2012年挑战赛相同，只是省略了合成数据集。2014年的训练数据集是2013年挑战赛的放大版，其中包含了来自NIH癌症影像档案库（TCIA）的300 HG和LG脑部扫描。所有病例均包含先前所述的四种成像方式。使用手动和算法标注将它们分割为前几年定义的类。通过融合BraTS 2012和BraTS 2013挑战中的高级分割算法的结果来完成标注。然后，通过经验丰富的评分者进行目视检查来审核这些标注。

此外，来自Brats14中针对同一患者的一系列纵向观察数据集也用于疾病进展评估任务。表I总结了BraTS12-18训练，验证和测试数据集的规范。尽管在某些挑战中训练数据集的标注是自动完成的，但专家评分员在所有BraTS挑战中都手动标注了测试数据集。

第十二届脑影像机器学习班（重庆，11.11-16）

第十届磁共振脑影像结构班（重庆，11.2-7）

第十四届DTI数据处理班（重庆，11.19-24）

第三十五届磁共振脑影像基础班（重庆，11.30-12.5）

第十三届脑影像机器学习班（南京，12.13-18）

第十八届磁共振脑网络数据处理班（南京，11.6-11）

第十五届DTI数据处理班（南京，12.26-31）

第三十六届磁共振脑影像基础班（南京，2021.1.6-11）

第十一届磁共振脑影像结构班（南京，1.12-17)
思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像（DWI/dMRI）数据处理

思影科技脑结构磁共振成像数据处理业务（T1)

思影科技脑影像机器学习数据处理业务介绍

目镜式功能磁共振刺激系统介绍

4.BRATS挑战成果

BraTS挑战始于2012年的12位参与者，提出的分割模型并未产生特别准确的结果（见下文）。从那时起，参与者的数量以及提出的方法的多样性及其分割精度逐年增加。在本节中，将描述每年BraTS挑战的结果，并详细讨论每种排名靠前的挑战。

A.BRATS 2012

对于提交给BraTS12的算法，平均Dice分数在全肿瘤范围内（真实标签）为0.14-0.70，在肿瘤核心范围内（真实标签）为0.09-0.37。在向BraTS12提交的12项提交中，有8种方法是完全自动化的。这些主要基于随机森林（RF）分类，逻辑回归（LR）和马尔可夫随机场（MRF）。评分最高的模型都是基于RF分类器的,其中一个排名最高的算法将分割任务建模为正则化的分层条件随机场（CRF），其中RF用作分类器。该方法从临床数据集中获得的全肿瘤和肿瘤核心的Dice得分分别为0.6和0.27。另一种排名最高的方法也是基于RF分类。该算法首先根据局部强度信息将特定的组织类别分配给大脑中的每个点。然后，将这些初始概率估计值与多模式MR图像一起输入到RF分类器中，以分割脑肿瘤组织。对于全肿瘤和肿瘤核心，该方法的Dice得分分别为0.7和0.25。

B.BRATS 2013

在BraTS13中，提交的平均Dice得分相比BraTS12有了很大提高，全肿瘤的平均Dice得分范围为0.71-0.87，肿瘤核心为0.46-0.78，增强肿瘤为0.52-0.74。BraTS 2012挑战赛中基于RF的方法出色的分割结果激励了更多BraTS 2013的参赛团队继续使用此分类器。BraTS 2013挑战赛共收到10份参赛作品，其中9项是完全自动化的方法。这些自动化方法中有4种基于RF，其中3种方法在挑战中名列前茅。排名最高的小组采用了一系列的RF模型。他们首先将MR图像提供给第一个RF以生成概率图像，然后将其用作后续RF的输入。将二值化的形态学特征处理，并用作最后一步，以完善所得标签。该方法在全肿瘤，肿瘤核心和增强肿瘤上分别获得0.87、0.78和0.74的Dice评分。在BraTS 2013挑战赛中，另一种排名最高的方法也使用RF分类器对脑肿瘤进行了分割，该分类器输入了MR图像的提取纹理特征。针对输入图像的每个切片都提取了空间和非局部特征。这些特征包括四种MRI模态的强度，这些模态之间像素强度的差异，表面积和纹理，它们是自然图像的基本结构。对于全肿瘤，肿瘤核心和增强肿瘤，该方法提交的Dice得分分别为0.83、0.72和0.72。

C. BRATS 2014

2014年，有8篇论文提交给BraTS挑战赛。与往年一样，RF分类器仍被大量采用，其中有4个提交基于此模型。卷积神经网络(CNN)在医学影像中的应用已经起步，BraTS 2014的三个参与小组采用了CNN进行脑肿瘤分割。还有一个基于图集的模型，该模型基于使用肿瘤生长模型从肿瘤种子点生长的肿瘤标签。

BraTS14中排名最高的组之一采用了基于3D CNN的体素分类方法，该方法在从多模态MR图像中提取的小型3D图像块上进行了训练。CNN由3个卷积层组成，分别具有15、25和25个卷积核，每个核的大小为5x5x5。最后的卷积层具有6个核，分别对应于6种不同的预测类别（水肿，肿瘤增强，非肿瘤增强，坏死，空气，其他异常组织）。Softmax分类器用于计算输出层中这些类别的概率。他们在全肿瘤，肿瘤核心和增强肿瘤方面分别获得了0.87、0.73和0.77的Dice评分。

BraTS 2012挑战赛排名最高的一组选手，开发了一种基于2D-CNN的大脑分割算法，并将其与之前基于RF的方法进行了比较。他们提取了所有MR图像切片中每个像素周围大小为19x19的多通道2D图像块，并使用了可用于肿瘤类别的所有样本以及随机抽取的背景大脑样本以训练其网络。他们的CNN包含两个卷积层，其核大小为5x5和3x3。最后一个卷积层后面是一个全连接层，使用softmax分类器，该分类器具有5个类别的5个输出节点。他们使用BraTS 2013训练数据集的HG案例评估了他们的方法。他们的结果表明，与基于RF的方法相比，基于CNN的方法具有更高的性能。对于基于CNN的模型，报告的Dice得分中全肿瘤，肿瘤核心和增强肿瘤分别为0.83±9.4, 0.69±24.9, 0.69±24.9。

D.BRATS 2015

提交给BraTS 2015挑战赛的论文有12篇，主要基于CNN，这很有可能是由于BraTS 2014中CNN方法达到了很高的分割精度。还有3种基于RF的算法和1种RF和CNN的集成方法。有3篇论文采用生成模型进行脑肿瘤分割。2015年排名最高的算法是Mohammad Havaei等人提出的InputCascadeCNN模型。如图2所示，这是一个具有级联架构的CNN的模型，用于对标签的局部依赖性进行建模。使用两个并行的2D CNN来提取输入图像的局部细节或组织外观的整体背景。然后将双路径特征图拼接起来，并连接一个全连接层，然后放置一个softmax分类器，以预测类别标签。提交的BraTS 2013数据集的Dice评分分别为全肿瘤，肿瘤核心和增强肿瘤的0.88、0.79和0.73。

图2. InputCascadeCNN模型。局部和全局路径中的特征图分别以黄色和橙色显示

向BraTS 2015提交的另一项成功的算法是使用基于图像块的2D CNN局部结构预测方法。作者将分割任务分解为三个单独的二值分割子任务：全肿瘤分割，肿瘤核心分割和增强肿瘤分割。对于每个子任务，提取2D图像特征块并将其提供给CNN，以预测位于每个图像块中心的最可能的标签块。使用k均值将提取的标签块聚类为N组，以生成大小为N的字典，并将标签模板标识为每个簇的平均标签块。这些标签模板被用作训练CNN的分割图。最后，将每个预测的标签模板分配给其相应图像块的位置，并将阈值应用于最终的标签预测。该算法中使用的CNN由6层组成（卷积层，池化层和全连接层）。作者使用从BRATS 2014中随机选择的66名被试评估了他们的方法，并获得了全肿瘤，肿瘤核心和增强肿瘤分别为0.83, 0.75和0.77的Dice分数。

E. BRATS 2016

BraTS 2016提交了18份论文中, 一半的算法是基于CNN的。在该挑战中还提出了四种基于RF的模型，一种基于SVM的模型和三种生成模型。

表现最好的算法之一是Kamnitsas等人提出的DeepMedic。由具有残差连接的11层3D CNN组成，如图3所示。它具有两个并行路径，每个路径均以特定比处理输入。在增加神经元感受野的同时保持了较低的计算成本。利用残差连接提高模型的性能。在BRATS 2015的训练数据集上使用5折交叉验证对模型进行了评估，针对全肿瘤，肿瘤核心和增强肿瘤的Dice得分分别为0.89、0.76和0.72。作者还研究了用更少的数据或滤波器较少的网络训练算法的性能。

他们的研究表明，这些参数主要影响精细结构（如坏死）的分割精度，而不影响其他肿瘤分类。

图3 DeepMedic架构

Randhawa等人对2016年挑战赛的贡献也基于CNN架构，但区别在于损失函数的定义以及研究损失函数的选择对分割准确性的影响。他们的网络是具有多模态输入的8层2D CNN。分两个阶段训练网络，首先使用随机选择的数据来平衡分类，然后在第二阶段使用所有类的所有数据对网络进行微调。为了提高边缘周围分割的准确性，他们引入了修改后的交叉熵损失函数，它基于某一像素与其他类别像素的接近程度对像素进行加权。作者在BraTS 2015数据集上对模型进行了训练和评估，并证明了在应用其修正的损失函数时提高了分割精度。全肿瘤，肿瘤核心和增强肿瘤的Dice得分分别为0.87、0.75和0.71。

U-net由Ronneberger等人首先提出。自从2015年以来，它已成功地应用于许多医学图像分割任务。U-net是一种CNN结构，由用于提取上下文的收缩路径（也称为编码器）和用于在图像内精确定位对象的对称扩展路径（也称为解码器）组成（这也是U-net名字的原因）。Casamitjana等人将3D U-net应用于BraTS 2016挑战赛，并为全肿瘤和肿瘤核心实现了卓越的分割精度。他们的网络架构如图4所示。该模型在BraTS 2015训练数据集上进行了训练和测试（训练数据60％，测试数据40％），全肿瘤，肿瘤核心和增强肿瘤的Dice得分分别为0.89、0.76和0.37。

图4

F.BRATS 2017

提交给BraTS 2017挑战赛的论文超过50篇。基于CNN的模型共有42种，特别是具有U-net和DeepMedic结构的CNN，其中16种模型是受U-net（或V-net）启发的，6种基于DeepMedic的模型，5种基于RF的模型，2种采用SVM作为分类器的模型。

基于CNN的模型性能在很大程度上取决于损失函数的选择，尤其是在处理类不平衡问题时，这在医学图像分割任务中非常常见。为了解决这个问题，已经提出了不同的损失函数，例如加权交叉熵或Dice损失函数。损失函数的选择在BraTS 2017的一些提交中得到了解决。虽然一些参与者决定应用Dice分数损失函数或加权交叉熵，但Jesson等人还是采用了一种在他们的网络的每个分辨率上给出的预测上引入多尺度损失函数的方法。他们的网络能够通过结合高和低分辨率的方式在图像和标签域中对上下文建模。为了解决类别不平衡问题，作者引入了像素级样本加权模型，使得每个训练样本对损失函数的贡献取决于其类别出现的频率。

此外，分割方法的其他超参数（例如，用于CNN模型训练的优化器）的选择，其学习率，正则化方法和Dropout rate也会极大地影响模型的性能。然而这些超参数的选择在很大程度上是随意的，无法保证相同的超参数设置会类似地影响不同模型的性能。因此，可能需要进行大量实验才能发现模型的最佳超参数。为了减少不同模型对其超参数的依赖性，集成思想被广泛采用。

在过去的十年中，集成学习已成为图像分割任务中的热门话题。集成模型将几种机器学习算法组合在一起，以提高模型的稳定性和预测性能。这是通过平均模型和特定配置（例如体系结构选择或超参数选择）来实现的。一些小组采用RF的集合，而其他模型更多的是基于CNN的集合。BraTS 2017挑战赛的获胜者是多个模型和架构的集合（EMMA）。EMMA是两个不同的DeepMedics，两个全卷积网络（FCN）和一个U-net的集合。这些模型是完全分开训练的，并产生了自己的分类置信图。然后，通过平均每个体素的各个模型的置信度图来创建每个类的EMMA最终输出。作者在BRATS 2017的盲测数据上评估了他们的模型，在全肿瘤，肿瘤核心和增强肿瘤上分别获得了0.90、0.82和0.75的Dice评分

BraTS 2017挑战中排名第二的模型是Wang等人提出的各向异性CNN模型。他们的模型由级联的FCN组成，用于将多类分割任务分解为一系列的二值分割任务，如图5所示。其目的是使用二分类来简化每个FCN体系结构，并减少假阳性预测。因为每个FCN的输入都使用前一个网络提取的区域作为输入。这意味着预测的肿瘤核心一定位于全肿瘤内部，而增强的肿瘤核心一定位于肿瘤核心区域内。

图 5

为了解决3D神经网络中的内存消耗问题，作者提出了各向异性FCN，其输入是一堆切片，这些切片具有2D的大接收场和沿垂直于2D切片的方向的小接收场。因此，它们的FCN由各向异性卷积组成。为了增强分割性能，作者在其FCN中应用了残差连接和多尺度预测。他们使用BraTS 2017数据集训练并评估了他们的模型。在全肿瘤，肿瘤核心和增强肿瘤上分别获得了0.89、0.82和0.76的Dice评分。

图 6

BraTS 2017挑战赛的第三名由两个小组分享：Isensee组和Yang组。Isensee组提出了一种改进的U-net版本，用于脑肿瘤分割任务，如图6所示。它们的上下文模块由激活前的残差块组成，该块具有两个卷积层和一个介于两者之间的Dropout层。网络输出是对多尺度分割层进行逐元素求和的结果。他们使用从BraTS 2017训练数据集中提取的大小为128x128x128体素的随机采样区域以及扩充数据集。他们的模型在BraTS 2017验证集中进行了验证，并且Dice得分全肿瘤，肿瘤核心和增强肿瘤分别为为0.89，0.79和0.73。

Yang等人的模型是基于SegNet的2D CNN，由26个卷积层的编码器-解码器和多分类softmax分类器组成。他们在三种不同的情况下对来自FLAIR图像的240x240像素大小的切片训练了网络。首先，他们使用了所有FLAIR图像的所有切片（B组）。其次，他们排除了没有标记肿瘤的切片（A组），并在其余切片上训练了它们的网络。对于第三个训练场景（A + B组），他们使用在A组数据集上训练的SegNet作为预训练网络，并使用B组数据集更新权重。他们使用BraTS 2017的HGG数据集训练了他们的网络，并应用了2折交叉验证。尽管作者声称该在A组（Dice得分：0.74 0.14）和A + B组（Dice得分0.73 0.16）数据集上训练的网络性能高于B组（Dice得分：0.73 0.15），但我们无法在报告的准确性之间找到可观测到的差异。此外，在A组训练的SegNet和在A + B组训练的SegNet的性能也非常接近，作者建议在A组数据集上训练网络，耗时较少。

G.BRATS 2018

BraTS 2018挑战赛提交了超过60篇论文以进行脑肿瘤分割任务，而CNN再次主导了比赛，该挑战结果中排名最高的模型全部基于CNN。提交给BraTS 2018的超过50篇基于CNN，其中超过35种模型采用U-net或U-net和其他CNN架构的集合。提交中还有3个基于RF的模型，与基于CNN的模型相比，其结果并不出色。DeepMedic架构在2018年也不占优势。

基于CNN的模型在不同图像分割任务上的最新成就激励更多研究者修改此类模型以进一步提高其性能。诸如ResNet和DenseNet等优秀的网络陆续被提出。ResNet是基于残差学习的CNN，如图7（左）所示，而DenseNet是由密集连接的卷积块组成的CNN，图7（右）。受这些模型的启发，BraTS 2018挑战的一些提交了一些采用DenseNet或ResNet构建的CNN模型。例如，McKinley组通过将密集连接的膨胀卷积块嵌入浅层2D U-net结构中来设计模型。使用来自所有三个方向的切片对模型进行了训练，并且在测试时，通过求平均将这三个方向合在一起。作者介绍了他们的模型并采用了标签不确定性损失函数，全肿瘤，肿瘤核心和增强肿瘤的平均Dice得分分别为0.90、0.85和0.79。他们称为DeepSCAN的体系结构在BraTS挑战中获得了第三名。

图7

BraTS 2018挑战赛中排名最高的模型具有非对称编码器-解码器体系结构，其中较大的编码器部分用于提取更多图像特征。为了补偿较小的数据集，向编码器端点添加了一个变分自动编码器分支，以重建输入图像（图8）。仅在训练期间使用的添加的分支对共享编码器施加了附加约束并将其规范化。为此，该网络的损耗函数既包括与解码器输出相关的Dice损失函数，又包括与可变自动编码器输出相关的正常损失函数。为了提高模型性能，作者集成了10个模型，每个模型都是从头开始训练的。使用BraTS 2018验证数据集获得的Dice评分分别为全肿瘤，肿瘤核心和增强肿瘤的0.91、0.86和0.82。

图 8

在BraTS 2018挑战赛中，排名第二的模型是“ No New-Net”。该模型是BraTS 2017中排名第三的小组提出的基于U-net模型的修改版本。这次，作者主要关注网络的训练过程。他们使用leaky ReLU替代传统的ReLU，还在在卷积层和非线性层之间应用了IN（instance normalization,）。使用大小随机抽样的图像块对网络进行了训练。采用多分类Dice损失作为损失函数。在训练过程中使用了图像增强技术：随机旋转，随机缩放，随机弹性变形，伽玛校正增强和镜像。他们还使用自己的数据集对网络进行了训练。由于他们自己的数据集和标签与BraTS的数据集和标签略有不同，因此他们在网络末端添加了一个额外的1x1x1分割层，该层仅用于训练自己的数据集。每个minibatch的总损失是该层以及用于BraTS数据集的原始分割层的平均值。对于后处理步骤，将LGG患者的所有增强肿瘤体素（增强肿瘤体素少于500个的）替换为坏死。这样做是为了克服将肿瘤核心小血管误分类为LGG患者增强肿瘤的问题。经过所有这些修改，他们的模型在全肿瘤，肿瘤核心和增强肿瘤上分别获得了0.90、0.85和0.81的Dice评分。

BraTS 2018中另一个排名最高的模型是基于级联CNN模型。为了解决类不平衡问题，采用了三个相同的编解码CNN（其网络仅在其分类层上有所不同）来检测全肿瘤，肿瘤内类别以及随后对增强肿瘤的精确分割。使用大小为32x32x16的多模态图像块对网络进行训练。为了向网络提供更大的感受野，他们提出了两个并行路径的体系结构，用于合并本地和更大的上下文信息（见图9）。为了在模型中减少训练的内存成本，作者还采用了较早提出的单程多任务网络（OM-Net）。该体系结构背后的想法是，考虑到三个级联的CNN之间的相似性，可以将它们合并到一个端到端的整体网络中以节省参数。此外，作者采用了Squeeze-and-Excitation（SE）块使用OM-Net。

SE模块通过对通道之间的相互依赖性进行建模来重新校准通道方式的特征响应。这也有助于增强网络的代表性学习。作者首先分别对上述架构进行了训练，然后对其进行了集成以实现更强大的性能。全肿瘤，肿瘤核心和增强肿瘤分别获得0.90、0.83和0.79的Dice得分。

图 9

V. 使用挑战数据之外的挑战数据集进行脑肿瘤分割

BraTS数据集的优秀架构使其成为一种流行的资源。有几个小组使用此数据集来训练他们的深度学习模型。例如，Medical Segmentation Decathlon的组织者将BraTS16和BraTS17数据集重新用于他们的挑战。Medical Segmentation Decathlon的参赛者需要针对与人体不同部位相对应的10个不同数据集开发通用的分割模型。这项挑战赛中脑肿瘤分割任务的Dice得分与BraTS挑战赛中表现最好的模型的Dice得分不相上下。我们认为，比较这两个挑战的结果是不公平的，因为它们的目标差异很大。在提交此手稿时，该挑战赛中排名最高的模型是由Isensee等人提出的nnU-net，他们也是BraTS17和BraTS18的顶级参赛者。在nnU-net中，作者开发了3种不同的模型：2D U-net，3D U-net和级联3D U-net。在使U-net体系结构与通用U-net非常相似的同时，他们的工作重点是方法的可推广性。他们在挑战在线排行榜中提交的针对脑肿瘤分割任务的Dice得分在全肿瘤，肿瘤核心和增强肿瘤的分割任务中分别为0.67、0.47和0.68。

使用BraTS数据集开发的另一种脑部分割模型是在BraTS15数据集上训练的Residual Cyclic Unpaired encoder-decoder network（RescueNet）。RescueNet使用基于非配对生成对抗网络（GAN）的训练来解决注释数据集的小尺寸问题。RescueNet的流程如图10所示。在周期1中，网络G用于从MRI扫描中生成分割标签，然后网络F利用分割标签生成肿瘤图像。在周期2中，网络F用于从分割标签合成生成肿瘤图像，然后网络G用于反向生成分割标签。周期1和周期2中的图像之间没有相关性。训练网络的损失函数包括G的对抗损失，F的对抗损失，正向周期一致性损失和后向循环一致性损失。 RescueNet采用类似于U-net的体系结构。以级联的方式开发了三种不同的RescueNet，以将脑肿瘤分步分割。作者在BraTS15和BraTS17数据集上测试了他们的模型，对于全肿瘤，肿瘤核心和增强肿瘤在BraTS17数据集上的Dice得分分别为0.94、0.85和0.93。

图 10

Zhao等人提出了使用BraTS数据集开发的另一种分割模型。如图11所示，他们的模型集成了FCNN和CRF（公式化为递归神经网络：CRF_RNN）。CNN和CFR-RNN都经过反向传播训练。只有T2T1-c和Flair图像用于训练。提取轴向，冠状和矢状面的2D斑块，并将其馈入网络。为了对每个体素进行分类，应用了多数表决策略来融合来自不同视图的分割结果。为了避免班级不平衡问题，针对不同班级提取了相同数量的训练补丁。他们的模型经过多尺度训练。此外，作者通过应用阈值处理以及还删除了3D连接的小区域，对预测的标签进行了后处理。使用BraTS13，BraTS15和BraTS16训练了模型。对于全肿瘤，肿瘤核心和增强性肿瘤，BraTS16测试数据集的报告Dice得分分别为0.84、0.73和0.62。

图 11

Sun等。还使用BraTS18数据集开发了基于深度学习的脑肿瘤分割模型，该分割模型获得了可观的分割精度[63]。他们的模型是三个先前成功模型的集合：级联的各向异性CNN [33]，Isensee等人提出的3D U-net体系结构。[38]，以及标准U-net的3D版本[31]。多数投票被用来整合这些独立训练的网络。作者证明，集成模型可提高全肿瘤的分割精度并增强肿瘤，而级联的各向异性对于肿瘤核心分割的效果更好。对于全肿瘤，肿瘤核心和增强性肿瘤，所报告的集合模型的Dice得分分别为0.90、0.85和0.80。

VI.脑肿瘤分割的前处理和后处理方法

尽管大多数脑肿瘤分割算法的主要重点是分割方法本身，但事实表明，即使简单的前后处理方法也可以通过提供附加信息来显着提高模型性能[64]。在此，结合BraTS挑战的最新成果回顾了其中一些方法。

BraTS数据集的组织者已经对其进行了各种预处理，因此所有低质量的成像图像都被剔除，具有各向同性的分辨率并共同配准了MR图像。MR扫描通常包含由于磁场不均匀或在扫描期间患者的小动作而产生的强度不均匀性，这可能会影响分割结果。为了补偿这些伪影，已对MR图像应用了偏场校正算法，这是提交给BraTS挑战的许多模型的第一步，即第一步。为此，使用N4ITK工具的N4偏置场校正算法是最流行的算法。

另外，由于已经在各种扫描仪和不同的临床方案上获取了BraTS数据集，因此其MR图像具有非标准化的强度分布。因此，标准化是使用BraTS数据集进行自动脑肿瘤分割任务的关键预处理步骤。为此，大多数参与者为每种模态采用的一种简单方法是从每个体素中减去平均值，然后除以该图像内强度的标准差，以便每个模态的均值和单位方差为零。当数据集较小时，另一个有用的预处理步骤可提高结果的概括性，如第IV节所述，使用数据增强。这涉及旋转，翻转和镜像获取的数据集以增加样本大小。另外，为了减少错误的阳性预测，一些参与者裁剪了大脑的体积以消除无用的背景体素。

一种提高分割精度的简单后处理方法是去除在预测过程中产生的不正确的小肿瘤簇。为此，通常为要删除的群集的大小来定义一个阈值。用于减少假阳性预测的另一种简单的后处理方法是去除位于肿瘤核心外部的增强肿瘤体素，以及去除在水肿之外预测的肿瘤核心体素[。BraTS中的几种模型还采用CRF作为其后处理方法来获得空间平滑的分割预测。

总结：

图12中显示了自2012年以来BraTS挑战的最佳分割精度的变化。作为BraTS挑战的努力的结果，现在有可能实现整体Dice得分大于0.90的脑肿瘤分割精度瘤。尽管预测Dice得分不能超过专家评级者对黄金标准的得分，但我们可以预期在不久的将来预测准确性将会提高。这可以通过合并各种图像处理技术，修改深度学习模型并增加数据集大小来实现。

图 12

在这项研究中，讨论了准确的脑肿瘤分割的挑战，以及需要一个一致的框架来比较文献中提出的不同脑肿瘤分割方法的性能。主要描述了BraTS挑战规范，以及其多模态MR图像数据集及其自2012年以来的演变。提供了每年提交给BraTS挑战的全自动模型的一些统计数据，并详细解释了排名靠前的模型。我们还介绍了使用BraTS数据集开发的一些性能最高的模型，这些模型是在挑战外发布的。

根据这项研究，在BraTS挑战的早期阶段最成功的模型是基于RF（BraTS 2012-2014），而深度学习革命改变了这种趋势，并且大多数提交给BraTS 2015-2018的模型都是基于RF深度学习模型的最新发展（例如非线性激活，批处理规范化和dropout（dropout意思就是某一层网络随机丢弃一半数据)）提高了这些模型的准确性，因此提高了它们的流行性。自2015年以来，基于深度学习的模型以及更具体的基于CNN的模型为分割任务提供了最佳性能。

可以使用2D或3D输入来开发CNN模型。在BraTS数据集中，由于考虑到沿z轴的有价值的信息，因此3D CNN有望产生更高的准确性。尽管如此，用于训练模型的可用GPU内存量始终是一个限制因素。结果，BraTS挑战的许多参与者使用从MRI扫描中提取的2D切片来训练他们的模型。为了补偿z轴上的信息丢失，一些参与者使用从不同视图（轴向，冠状和矢状）提取的切片训练了多个CNN，然后融合了所有CNN的预测以达到最终分割结果。这种方法有助于提高此类模型的Dice评分准确性。

在已提出的所有基于CNN的模型中，基于U-net的模型已证明优于大多数其他分割模型。由于其直接的架构和高精度，U-net已被广泛用于脑肿瘤分割，其程度超过50％的提交给BraTS18挑战的材料都是基于它的。Isensee等证明“训练有素的U-net很难被击败”。在BraTS18和BraTS17中，他们经过稍微修改的U-net分别排名第二和第三（在BraTS18中，他们使用自己的数据集共同训练了模型）。他们成功的模型可以被认为是他们的假设的证明，即分割方法的非建筑方面会显着影响其结果。其他提升模型性能的非架构方面包括适当的预处理和后处理步骤，训练超参数（例如，数据增强，训练优化器，损失函数等）以及在训练和测试时间中应用集合。

最后，集成学习可提高模型的鲁棒性，并提高模型的准确性。挑战组织者评估了BraTS12和BraTS13中排名最高的模型的集合，并注意到在识别所有肿瘤亚区域时，分割标签的融合优于所有其他模型。集成模型在BraTS18挑战赛中无处不在，在所有顶级模型中都存在，预计在未来的一段时间内都扮演着主要的角色。

使用多模态脑部扫描数据的自动脑肿瘤分割

相关推荐