骚操作?违背教科书? 统计分析用均数描述,却又用秩和检验来比较差异性!
按理说,我们开展数据分析的常规操作是如果数据偏态分布,正态分布用算术均数来统计描述,用t检验和F检验开展差异性比较;偏态数据用中位数描述,用秩和检验来开展差异性比较。
但是,有些文章却很奇怪。
我的一个学生就问了:“亲爱的郑老师,为什么我看到一篇文献,他统计描述用的是均数和标准差,为什么分析不用t检验呀,怎么用秩和检验了!?”
我在在之前一篇推文的案例也出现类似的现象。
《新英格兰医学杂志》论文统计解读:如何计算中位数差值的置信区间
为什么有如此骚操作?
我讲几点,你理解了就知道为什么了。
1. 大样本偏态数据t检验可以为所欲为?
有人总是搬出概率统计学的“中心极限理论”,说大样本数据,样本均数逼近正态分布,所以t检验没有问题!
这是大大的错误!“中心极限理论”不是意味着样本量较大,这个原始数据的分布就正态分布!既然原始数据分布不是正态分布,做t检验自然不合适,因为,t检验要求数据服从正态分布。
2. 偏态数据分为近似正态和严重偏态
严重偏态容易理解,而近似正态指的是(特别是较大样本量)正态性检验P<0.05,但直方图而显示大致中间多,两边少的分布特征。比如下方4图中,左上方的图就是近似正态分布!
3. 近似正态可以采用t检验,也可以考虑非参数秩和检验
差不多近似正态分布的情况下,t检验、F检验和非参数检验都可以考虑,且结果相似,不用纠结。如果要完全符合审稿人的偏执要求;如果差异性比较后续还要跟着线性回归分析、协方差分析、重复侧方差分析时,建议用t检验(两者都是参数检验的范畴,一篇文章保持一致性)。
4.秩和检验具有广泛的适用性
无论正态分布、近似正态分布、偏态分布,数据的比较均可以采用秩和检验,只不过正态分布时,更推荐参数检验,因为参数检验手段更丰富。
5.近似正态优先考虑用均数来描述
为啥?因为人人都爱均数!均数更容易理解!你看我们国家统计总局每年公布国人年人均收入时候,也用均数,尽管我们国家贫富差距明显,收入是严重偏态分布!
6. 所以。。。。
“一个指标用均数描述,却又用秩和检验来比较差异性!”的现象是合理的!近似正态分布时候,用均数来描述,秩和检验来进行分析。
不过一般我们数据分析时,这样的骚操作还是谨慎使用吧!