MEG/EEG数据中基于团块的置换检验不能确定潜伏期或位置的显著效应

在认知神经科学中,基于团块的置换检验被广泛地运用于统计检验中。基于团块的置换检验巧妙地解决了MEG和EEG数据中的多重比较问题。然而,该统计方法的统计功效往往伴随着对推理结果的不合理解释,其中最为突出的是对时间、空间、统计报告的频率精度的过高估计。这导致研究人员对某种效应的出现或消失进行了相应的报告,但效应的出现或消失并没有得到置换检验结果的支持。本文中,我们将梳理使用和解释基于团块的置换检验的问题和误区,并通过使用数据模拟的方法让研究者更直观的了解到这些表现。以期通过提高对这些问题的认识进一步推动开放科学的实践,同时进一步推广基于团块的置换检验的使用。本文发表在Psychophysiology杂志。(可添加微信号siyingyxf或18983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群)。

1 引言
认知神经科学的进步依靠强大的非侵入性方法来证实和扩展行为发现。MEG或EEG(以下称为MEEG)实验通常会产生具有时空结构的高维数据结果:在多个传感器上对多个时间点进行采样。一种常见的分析ERP的方法是对多个时间点和传感器的数据进行平均后再执行参数检验(如:方差分析或 t检验)。然而,电极和平均时间点的选择不能以看过数据为条件(除非,例如,采用了适当的交叉验证),因为这完全使结果p值无效。因此,在进行数据分析时,研究者可以事先设置特定的分析参数(例如,以预先注册的方式),但是如果无法进行分析参数预设(例如,研究的是一种新的现象),则需要一种更具探索性的方法。其中一种方法就是进行大规模单变量检验,换句话说,在每个时间点和每个传感器上进行与上述相同的测试。然而,这会产生与原始数据一样的多维结果,从而导致多重比较问题。当进行具有通常显著性阈值(例如p <0.05)的成百上千次单独测试时,实际错误率大大超过总体错误率(5%)。因此,必须对多次对比进行校正;但是,尽管这些方法可以控制总体错误率,但其中许多方法都降低了统计功效,并削弱了研究人员在研究中观察到真实效应(如果真实存在)的机会。
基于团块的置换检验可以作为解决多重比较问题的一种方法,其已经被广泛的运用于实际的研究中,Maris和Oostenveld (2007)的论文在谷歌学术的引用次数已经超过2000次。其中最关键的是,基于团块的置换检验在控制I型错误率的同时,提高了统计功效。该方法考虑了MEEG数据的特定结构,以最大程度地提高统计功效。其假设是:效应团块在研究者感兴趣的时间和空间维度上。一方面,假定真实信号具有在多个相邻时间点处有所反应,另一方面,相邻传感器显示相似的模式。传感器的空间团块是由存在体积传导的源这一事实驱动的。因此,MEEG数据和可能真实的MEEG效应是一种具有特征性相关的结构。
重要的是,Maris(2007)提出的基于团块的置换检验实现了对多重比较问题的控制,同时通过使用数据的团块结构作为其唯一的测试统计量来实现统计功效最大化。这意味着没有对单个体素进行推断(即,在一个特定传感器上的一个特定时间点)。取而代之的是,首先通过一种算法在数据中识别团块,然后将观测数据的团块结构与在原假设下构造的数据的团块大小模式进行比较。从概念上说,这意味着,第二个统计推断阶段永远看不到单个体素,也没有对单个点进行统计推断。因此,关于具有毫秒精度的显著差异的开始或偏移量的声明都是不准确的。此外,在这个阶段,团块的空间位置同样是不可见的,这意味着它不是团块的位置,而是它们的大小。
尽管如此,研究人员始终采用基于团块的置换检验结果来支持不仅存在显著差异,而且还支持(空间或时间)效应范围或位置。虽然这一程序很常见,但不适用。Maris和Oostenveld(2007)讨论的基于团块的置换检验没有提供效应位置的统计推断。在下文中,我们将更详细地讨论基于团块的置换检验的性质,以说明为什么这种推断是不合理的,然后介绍什么样的推断是合理的,以及如何推断时间或空间范围的效应。
阐述这些问题的相关性源于该方法的广泛使用。它已经成为MEEG分析方法中的主要方法之一,已成为MEEG分析的标准实践。这种方法的误用在文献中随处可见;虽然我们将避免个案,但作者本人必须承认,以本文所描述的方式不适当地使用了该方法,并且在已发表的文献中可以找到更多的例子
1.1 基于团块的置换检验的工作原理
基于团块的置换检验主要包括两个部分:
一种是团块算法,它将一个高维观测值转化为一个关于其团块结构的可量化总结。
另一种方法创建一个零分布,将观察到的数据与之进行比较以获得p值。
1.2 团块形成阶段
在下文中,我们指的是数据(即每个观察结果)具有结构(空间×时间)的情况,尽管本质上相同的考虑因素适用于一维数据(例如,仅时间)或3D数据(例如,频率×空间×时间)。为了简化分析,我们考虑关于个体之间的两种条件对比的推理情况。同样的问题也适用于具有多个水平的更复杂的设计。在两个条件的情况下,计算一阶检验统计量(即进行t检验,将此时的条件1与条件2的值进行对比)。这项测试的H0是:在未观察到的被试群体中,如果进行相同的实验操作,则两种情况之间的差值将恰好等于0。对整个数据集重复此过程将得到一个(传感器×时间)t值图。将这些t值与t分布进行比较会得出p值,然而,由于t值的数量,即使真实效果在任何地方都为零,许多t值也会超过临界值(即多重比较问题)。原则上,可以使用多种方法来解决这个问题,但是在基于团块的置换检验中,可以识别和利用数据中的团块。为此,根据先验定义对体素进行阈值标准设定,并且将t值超过该值的相邻体素进行组合。时间邻接的定义很简单,但MEEG传感器的空间邻接需要先验的邻域定义。最后,汇总为一个数字得到团块(团块)大小,如对所有t值加和,得到团块的大小。
关键的是,数据中的团块的范围,它们开始的时间、地形,如果适用的话,它们的频率边界在这个阶段是完全固定的,并且是数据的纯描述性功能。此外,它很大程度上取决于所采用的特定团块算法、所选参数以及预处理的选取。
1.3 推理阶段
前一节中描述的团块形成阶段通常包含一个名义上的推断阶段。但是,此过程的结果不会被解释为推断性要求,因为它们会成为重复测试的牺牲品。相反,采用了二阶推理阶段。该阶段的原假设是,第一阶段确定的数据的团块结构在条件之间是可交换的。团块检验统计量是一个复杂的非线性函数。例如,与平均值不同,平均值的分布通常被很好地理解,如果我们从虚无假设为真的数据中重复采样,建立第一阶段的团块大小,并考虑它们的分布,那么我们就不知道会产生什么样的分布。对于MEEG数据,得到零分布解析值的近似分布实际上是很难。相反,在交换性的原假设下,数据的概率可以用置换检验来确定。
请注意原假设的具体形式:观察样本在原假设下是可交换的。简言之,如果我们考虑条件1或条件2的数据,它们是从相同的概率分布(关于团块过程)得出的,则没有区别。这些数据被用来模拟可交换性的原假设。置换检验通过列举条件对数据点的所有可能分配而简单地实现了这个原假设。完全置换检验通常在计算上很困难;然而,一类特殊的近似蒙特卡罗采样是可行的,如果进行>800的置换,它们会产生令人满意的结果。也就是说,对于每次迭代,对每个数据集的条件赋值是随机化的,也就是说,对于来自对象1的条件1和条件2的数据,如果从2中减去条件1或相反,则随机选择条件赋值,依此类推。然后,在这个迭代中,重复第一阶段的过程来建立它的团块结构,并存储值。随后,进行新的迭代,直到在原假设下得到大量交换性样本。例如,如果每次迭代取最大团块的和,则每次迭代的结果是一个值。
最后,计算这些团块值的概率密度分布函数,作为原假设统计量分布的近似值。团块值超过的原假设值的百分比对应于可交换性原假设下的p值。
重要的是,虽然原始数据是高维的,因此容易出现多个比较问题,但第一阶段将其减少为一个团块,并且正是这个团块确定了零假设下的概率。
1.4 得到基于团块的置换检验结果后该怎么办?
请注意,在置换检验的过程中,团块的范围和维度在第一阶段是固定的。推理第二阶段永远不会“看到”第一阶段位置,而只能“看到”团块的大小。
实际上,这意味着不能保证团块中包含任意点的误报率。也就是说,关于这两种情况之间的对任意一点的差异统计描述是不合理的。因此,关于在一组中最早的时间点上的差异的说法,没有统计上的确定性和信心。然而,这样的说法经常出现在文献中,常见的形式如下:“进行了基于团块的置换检验,以识别条件不同的时间点。”
为什么这样的表述是不合理的呢?主要有以下几个原因:
第一,测试没有评估在团块中包含较早的时间点或忽略较早的时间点是否也不会导致显著的结果。团块范围不是由推理阶段确定的。作为一个描述性统计,团块范围取决于当前的数据样本、团块算法的特定运算和参数设置。重要的是,这并不意味着报告团块范围本身就是错误的。在可以很好地描述观测数据中,团块算法建立了一定程度的团块。简单地说,这个团块的具体形状——空间、时间、频率……范围——并没有受到控制错误率的推理检验的影响;只是它的大小出现在surrogate‐null数据的最外面的尾部。
第二,对单个数据点的预测阈值反映了测试的统计功效。换句话说,随着t值的增加或噪声的减少,较早的点将在这个阶段通过阈值。较低的测量噪声或较大的样本使观测到的效应在时间上向前移动/空间尺度变小/使效应出现在较窄的频率范围内。相反,高噪声/小样本会使效应在时间上向后移动/空间尺度变宽/使效应在更宽的频带上出现。对于时间维度,频域范围也强烈依赖于所选择的滤波器。
第三,基于团块的置换检验可能会低估效应的潜伏期、空间或频率范围,因为整个团块的统计功效可能会在推理阶段将其边缘的点前移。事实上,这更有可能发生在最早和最晚的时间点(以及最低和最高频率),因为团块更有可能从边缘的峰值点获得统计功效。通常,在第一阶段,在p值截止点上设置阈值。然而,这些p值在多次测试中并没有得到校正,事实上,预估会有许多假阳性。因此,在许多情况下,具有显著差异的团块将包括零假设为真的点,并且对此类错误的发生率没有控制。这就是为什么基于团块的置换检验不能提供对空间分布、时间起始点或频带的精确估计。通过基于团块的置换检验确定的团块的位置(延迟、拓扑…)将与效应的真实程度密切相关,但正如科学估计所预期的那样,这些位置上没有控制错误率。
对于如何检测MEEG的效应潜伏期,推荐阅读Kiesel, Miller, Jolicœur, and Brisson (2008), Luck (2005), Miller, Ulrich, and Schwarz (2009), Piai, Dahlslätt, and Maris (2015), and Rousselet (2012)等。
1.5 基于团块的置换检验的事后比较
在观察到一个重要的团块后,研究人员(尤其是原则上了解这些问题的研究人员)有时可能会倾向于使用基于团块的测试来建立效应mask,即进行事后分析,例如,研究这些传感器上的效应的时间过程,这些传感器通过测试显示出显著的效应,并将团块强度与感兴趣的变量相关联。在这里,必须考虑两个重要的注意事项:
首先,由于测试阈值是由效应强度决定的,这就带来了循环分析的危险。如果基于团块的置换检验表明在测试中得分高与低的受试者之间存在差异,随后是受试者在团块活动中得分的相关性,这是循环的。要进行这种分析,必须通过交叉验证来建立独立性。
其次,如果mask来自一个独立的数据集,那么使用团块范围作为mask是合理的,但是基于团块的检验(即推理阶段)可能不会做任何有意义的工作。再次记住,团块的范围是在第一阶段建立的。因此,替换空数据的昂贵计算本质上是没有用的。
1.6 基于团块的置换检验的结果的报告
如前所述,文献中关于基于团块的置换检验不适用的报道很多。这种误用很难归咎于这种方法的最初提出者。Maris & Oostenveld(2007,p.187)明确指出这一点:这种对局部效应的兴趣与我们对全局零假设的选择之间存在冲突:通过控制全局零假设下的误报率,我们无法量化效应时空局部化的不确定性。
在Fieldtrip的网站上还强调:“这里不需要写:'我们在时间点A和B之间的X区发现了一个显著的团块。’”
总而言之,如果说一个团块本身是有意义的,就数据的团块结构而言,原假设是错误的,并且某些特定的团块超过了一个临界值,那么说这个团块本身是有意义的并不是错误的。毕竟,每个团块都有一个合适的基于置换的p值,对应于它在surrogate-null直方图中的位置。也就是说,就其大小而言,团块可以是“显著的”,因为这是推理阶段所关注的。就其范围而言,它们并不显著,这完全是在第一阶段确定的。因此,当基于团块的置换检验后p<0.05时,虽然团块的存在是显著的,但其精度并不一定:团块的显著性仅指其团块水平统计在此类统计分布中的位置,而不是其在空间、时间或频率中的位置。
团块范围可能仍然是数据的信息性描述,例如,它的标准差,但它不是一个推断性陈述。因此,不应这样报告:“基于非参数化团块的置换分析评估了条件间差异时间点为180 ms。”
然而,我们可以这样说:“非参数团块置换分析显示了条件的影响(p < 0.05)。这与观测数据中始于180毫秒的一组数据相对应。”
这种说法是有道理的;然而,这可能不是最佳做法。第一和第二句之间的范畴区别在于:一个是推理的,另一个是描述的——很容易被掩盖。相反,推理阅读是非常容易引起研究者注意的。在文献中出现的大量误用证实了这一点。也许更可取的做法是:
(1)选择含糊的陈述(例如,“对应于大约150-200 ms开始的团块”),以便在没有给出统计精度的情况下不暗示统计精度;
(2)颠倒顺序,以便表明推理和描述性主张之间的分类差异。
空间和频率范围也是如此。团块检验并不能从统计学上证明这种效应发生在X和Y Hz之间的说法。但是可以正确地说,“在观测数据中发现了一个在theta波段的团块。基于团块的置换检验表明该团块是显著的,“如果把这理解为统计学上确定该效应只发生或主要发生在theta波段,是不合适的。”
1.7 事情会有多糟?一个示例数据
如前所述,假设基于团块的置换检验可以用于估计具有统计意义的效应程度,这将是严重误导。出于演示目的,我们进行了模拟研究,以举例说明现实世界中的错误使用率。
考虑一位研究人员,他希望估计效应出现的时间有多早,并希望为此目的使用基于团块的置换检验。我们在文献中发现,研究人员确实进行了多次计算,例如,进行检验,并假设在某个α水平上显著的任何团块中包含的最早时间点是效应出现的真实可靠指标。再次注意,这个时间点不是由基于团块的置换检验的“测试”部分产生的,因为团块范围是在预推断团块形成阶段建立的;因此,可以假设部分执行测试是为了提供对效应的统计证据。
尽管此过程的精确偏差很难估计且高度依赖于上下文,但是在建立这种偏差时有多个因素在起作用。如上所述,团块核心的时间点在推理阶段将边缘的时间点向前移动,即那些通过推理阶段支持效应开始的时间点。这就是对潜伏期的低估可能发生的方式,例如,团块的(时间)范围被高估了。另一方面,团块形成阶段并不能从提高敏感性的团块本身中受益(尽管有相关的替代算法,请参见Mensen&Khatami,2013)。这意味着从某种意义上说,如果使用它来选择边缘处的点,也可能是保守的:如果一项研究的统计功效很弱,那么检测边缘处的点的可能性就会很低。因此,尽管以高统计功效检测到根本不存在任何效果,但是在少数情况下仅包括边缘处的点。它们的纳入将取决于各种因素,尤其是团块形成的阈值,分布的广泛程度以及影响的集中程度。当然,效果也具有空间范围,因此将有多个传感器可以使此阶段的预选测试成功。然而,(a)这当然意味着有可能出现假阳性,(b)由于多个传感器的测试不是独立的(由于容积传导和空间相关性),很难估计灵敏度提高的真实性。无论哪种方式,以下推理阶段都无法为有关团块范围的陈述提供任何名义上的I类错误率的证据。例如“效应出现在X ms”。如下文中我们的模拟结果所示,I型错误率可能远远超过总体的α水平。
2 方法
OSF(https://osf.io/5cw7n/)中提供了重现此模拟所需的数据代码。 EEGLAB示例数据集是采用32导进行连续记录,在MNE-Python中进行了处理。通过独立的、成分分析清除了连续活动的眼动伪影,并将采样率降为100 Hz,并进行了30 Hz的低通滤波。
在10,000次模拟运算中,每次运算都提取了700 ms的随机时间段作为分段。刺激呈现前的平均值作为基线被减去,剩下500毫秒长的分段。每次运算时,都会创建100个这样的不重叠的分段。然后,在这些分段的一半中,添加了模拟的单相“ ERP”效应。为此,从在每个数据段中150 ms开始添加了一个正态分布概率密度函数,该函数在21个数据点上从 -1.5到1.5进行了评估,并缩放到0到15 uV的范围。实际上,第一个采样的真实效应出现的时间为160 ms。通过将该效应与神经起源的第一个独立成分的地形相乘(得出额中央拓扑)来模拟该效应的地形图。其结果是在每次运算中,在真实的EEG背景噪声中嵌入了类似于ERP的扰动。
然后,在MNE-Python中实现的基于团块的置换检验中,使用了一个原假设,即添加ERP的分段与未添加ERP的分段是可交换的。也就是说,我们实现了一个测试,就像那些实际用于建立条件之间差异的普遍性的测试一样。空间邻接通过Delaunay triangulation计算。进行单尾F检验,初始团块阈值为p<0.05(未校正)。
如上所述,该过程重复了10,000次。在模拟运行获得正结果的情况下,提取了任何显著团块中的最早时间点。记录了实际效果出现与该团块之间的差异,并绘制了其在所有运算中的分布,以及对效应出现潜伏期的低估程度。
3 结果
通常,该测试往往会高估效果的潜伏期。如图1所示,在超过5%的运算中,低估了40毫秒或更长的时间(参见图1右)。具体而言,在具体来说,在>20%的运算中,效应出现的时间被估计得太早;在>10%的运算中出现40 ms或更大的偏差。
图1 左图:任意显著差异团块中包括的最早时间点的分布以及观测值(红线)的概率密度分布和直方图。大量团块的边距不能有效地反映实际发生情况。
右图:对于每个等级的效应潜伏期低估的累积错误率。红线表示5%水平。
4 讨论
这些发现表明,基于团块的置换检验很难为诸如“操纵不晚于X ms诱发ERP”之类的说法提供统计上的证据。与错误率相比,较大的偏差可能会在更多的情况下出现。这并不出乎意料,因为当交换性的原假设为真时,测试对错误率的控制关系到一个显著团块的报告,而不是团块的范围。
4.1 局限
这种模拟的精确结果取决于各种选择。如前所述,特定的团块算法、滤波和信噪比极大地影响了程序的精度。例如,提高团块形成阈值和(大多数)低通滤波将增加估计的起始延迟;提高信噪比将提高错误使用基于团块的置换检验来估计影响集的准确性。然而,请注意,这与正常的错误率控制非常不同。t检验或任何其他适当的假设检验,如基于团块的置换检验,保证它实际检验的无效假设在名义水平(即在5%的情况下)仅被报告为假,假设它是真的。这是真实的测试的建设和将完全不受影响,例如,噪音水平;即使信噪比极低,而测试的统计功效很低,其误报率也是正常的。然而,这种模拟的具体结果取决于各种特殊参数的选择。
这一发现没有揭示基于团块的置换检验过程中的错误,这一点再怎么强调也不为过。这个过程正是按照它的设计和承诺去做的:控制与数据的团块结构有关的可交换性的零假设的假阳性率,同时最大限度地提高敏感性。这里强调的只是滥用这一程序的缺点。
4.2 结论
然而,基于团块的置换检验方法在处理多重比较问题上的优势可能会导致研究人员在错误解释上越走越远。常见的和有问题的误用是报告在毫秒尺度或团块的精确空间范围内条件差异的开始或消失。这表明实际的基本测试统计数据的不必要的精确性,并可能导致非常强烈但未经证实的说法。本文的目的是演示和举例说明使用和解释基于团块的置换检验的问题和常见陷阱。我们的模拟显示,在一个团块开始的个别时间点是一个不可靠的估计实际开始的条件之间的差异。此外,在我们的示例中,超过20%的效应出现时间比真实的效应出现时间更早。这个过程的计算过程证实了这一点:虽然有多个比较控制来建立条件之间的显著差异,但是对于团块中包含的各个时间点没有这样的控制。这意味着任何关于特定时间点的陈述都是误导性的,在报告分析时不应包括此类陈述。为了促进对基于团块的置换检验结果的准确解释和明确报告,我们建议报告一个近似但清晰描述的团块时间窗口。关于显著性的陈述只能用于整体统计对比(例如,“基于团块的置换检验表明条件A和条件B之间存在显著差异”)。仅当该信息的描述性质明确时,才建议报告团块的范围(例如,“观测数据中的团块从大约180 ms扩展到250 ms”)。我们希望基于团块的置换检验的准确解释将有助于充分利用这种强大的方法。
(0)

相关推荐