一个争议的问题:大样本偏态数据的比较,也可以用t检验、方差分析吗?
很多人还是不理解,他们说“我们学校老师都说,根据中心极限定理,大样本数据的样本均数将服从正态分布,所以开展t检验是没有问题”。我今天还是来解释解释,大样本严重偏态数据能不能进行t检验和方差分析。
先来说说,中心极限理论。。。。它的意思是无论原始数据如何分布,只要样本量大于30以上,样本均数的分布将呈现正态分布!由于t检验是比较两组均数的研究,由于样本均数是正态分布,样本均数的差值也往往是正态分布,因此是可以开展t检验的。t检验没错!但错在结论。两组偏态分布数据比较均数差异性,当t检验P<0.05,则说明两组均数存在着统计学差异。问题是,两组均数存在着统计学差异,能够说明两组数据有差异吗?我们来看个案例。两组数据的比较,为了让大家能够明白原理,我找了两组数据:一个严重偏态分布,一个正态分布(诸位可以看下面直方图)。那么两组数据的差异性分析,能用t检验比较吗?
对于大样本数据比较,t检验本身是没错的。t检验结果P=0.875.但是这个结果能不能真实反映两组总人群真实差异呢?显然,我们发现两组数据直方图有差别,数据分布不同!对于偏态数据,反应两组数据分布的好方式不是平均值,是中位数!均数没有差别(P=0.875),不代表两组数据真的没有差别。这个具有代表性的中位数,显示了两组明显的差异!您说该有差别还是没有呢?P<0.001,存在着统计学差异,而两组中位数差值是-0.539,95%CI置信区间-0.733--0.347,大规模偏态数据,t检验本身方法没有错,但其结果能不能反应两组数据平均水平的差异性呢?这是很难说的。而此时,秩和检验比的是排名位置的差异性,显然没有任何问题的!且由于样本量较大,检验效能仍然很高!所以说两组严重偏态分布用t检验,不是t检验本身有问题,而是其结论得到均数差异性并不能代表着两组数据真实的差异性!因为偏态分布不能用均数来代表其平均水平!本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。2021年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班。如果您有需求,不妨点击查看: