《大话脑成像》八:组水平标准化
2018已经到来,值此新春佳节之际,作为西南地区第一颜值担当的我继续为大家带来更加丰富多彩,干货满满的脑影像处理中的一些关键知识点讲解,并且不要19888,也不要198,完全免费,下面就由非常高端非常娴熟的职业数据处理玩家给大家带来组水平标准化讲解:
在处理脑影像数据时,常有一些刚入门的选手提问:高端玩家啊,一批数据该如何标准化?既然你提问了,我什么也不说也不好,这一期《大话脑成像》,我们专门来讨论这个问题!另外强调:本文所有“标准化”均指单组数据的Z-score变换,并非预处理时图像匹配到标准模板那个步骤!
在MRI领域,标准化常常伴随着数据处理与统计。评价脑影像仅仅采用单一被试来描述往往显得不大合理(但你要说你一个被试扫了100次以上,那我也没办法,不过最近还真有人这么干的),所以在分析数据时常常采用组分析方法(batch analysis)。把评价单独被试变换到一组被试上需要引入标准化。在不同的脑影像处理方法中,指标的量纲往往不尽相同,在各个指标之间水平相差巨大的时候如何进行统一分析?避免因为量纲不同带来的假结果?在重测时如何保证数据的可重复性?这就需要对数据进行标准化。
目前标准化的方法非常多,不同的标准化方法带来的评价结果会产生不同的影响,但是在数据标准化方法的选择上并没有金标准。这就需要我们了解各种各样标准化方法的机理与可能产生的问题,方便我们有需要的时候进行合理选择。组水平标准化(standard lization)最主要的目的是对一组数据进行比例、放缩变换,把有量纲的数据变成无量纲的数据。无量纲的数据处理的好处在于不用考虑数据的物理含义,可以在不同单位或者量级的数据之间进行加减或者比较。所以在这里我们引入今天的重点:Z-score——Z分数化。(敲黑板,划重点)
为了减少各位读者的阅读负担,我们对数学公式进行形象解释(你看高端玩家对你们多好)。Z分数化 : 一组数据减去均值除以标准差。经过Z-score标准化后,组内的数据服从标准正态分布(如图1:均值为0,组标准差为1)。经过Z-score标准化的洗礼,所有的数据变成了没了单位的纯数量值。数据做过Z-score标准化后,把标准差变成一个单位的距离,非0的Z-score值表示距离平均(也就是0)的距离。查看图1,基本99.9%的数据都落在3倍标准差以内。对假设检验感兴趣的读者可以参考我们往期的讨论:
===========================================
===========================================
图1:标准正态分布图(from Wikipedia)
注:
Z-score的数学定义:
其中: Z 为 Z分数,x 为一组数据值,μ 为均值(或样本均值),δ 为标准差(或样本标准差)
在使用Z-score标准化时,有两个问题需要注意:
(1)此"组" 非 彼 "组"
在做Z-score标准化时,心里一定要清楚我们所选择的“组”是什么(定义)。这里的“组”就是指一系列值的意思。举个例子:如果对一组人的某个ROI进行Z-score标准化时,“组”就是这组被试·一个ROI信号值序列。如果对一个人的3维或4维脑图进行Z标准化时,“组”就是该被试·大脑区域·某个时间点的所有数据值。注意这里所指大脑区域,表示非大脑区域的信号一定不能混入其中,需要选取这个被试的大脑模板。如果不清楚模板的使用,请参考往期讨论:
===========================================
《大话脑成像》之七——假设检验和效果量
===========================================
有读者可能会产生疑问:为什么非大脑区域对Z-score标准化影响巨大呢?我们把问题想得极端一些就明白了。如下图4×6的矩阵代表整个大脑区域,其中红色框部分为大脑区域,两个非零元素代表大脑区域数值。根据定义:减去均值除以标准差,加上非大脑区域,均值产生了明显降低,故导致结果错误。
图2:极端化的大脑区域与外界区域
(2) Z-score 与 Fisher-Z 的区别
很多人在 Z-score 与 Fisher's z 变换上面傻傻分不清楚,包括某些文章上面所得到的结果就是错误的。因为某些文章把Z变换用成了fisher z。Z-score 与 Fisher-Z其实没有任何联系,没有任何联系,没有任何联系。(重要的事情说三遍,它们之间是清白的!)只不过名称相似,又常常同时在磁共振数据处理中使用,难免混淆。Z-score,又称Z分数化,“大Z变换”,Fisher-z,又称Fisher z-transformation,“小z变换”。
Fisher's z 变换,主要用于皮尔逊相关系数的非线性修正上面。因为普通皮尔逊相关系数在0-1上并不服从正态分布,相关系数的绝对值越趋近1时,概率变得非常非常小。相关系数的分布非常像断了两头的正态分布。所以需要通过Fisher z-transformation对皮尔逊相关系数进行修正,使得满足正态分布。关于相关系数可参考我们往期的讨论:
===========================================
想了解相关系数?请看大话脑影像系列之三:趣谈散点图与相关系数
===========================================
图3:fisher's z transformation(from Wikipedia)
注:
相关系数定义:
fisher's z transformation:
其中:r 为相关系数,ln为自然对数。
最后,我们用一句话进行总结:Z-score标准化,用于一组数据去量纲,变换后得到数据均值为0,标准差为1.
PS:膜拜下让我们混淆许久的,在皮尔逊相关系数后变换上做出重大贡献的Ronald Fisher
我册封他为欧洲地区第一颜值担当
微信扫描二维码关注思影科技,获取更多脑科学相关咨询