一个争议的问题:大样本偏态数据的比较,也可以用t检验、方差分析吗?

自从上周我发一篇文章:
审稿人说,你的数据是偏态分布,统计方法不对!那怎么办?
很多人还是不理解,他们说“我们学校老师都说,根据中心极限定理,大样本数据的样本均数将服从正态分布,所以开展t检验是没有问题”。

我今天还是来解释解释,大样本严重偏态数据能不能进行t检验和方差分析。
先来说说,中心极限理论。。。。它的意思是无论原始数据如何分布,只要样本量大于30以上,样本均数的分布将呈现正态分布!由于t检验是比较两组均数的研究,由于样本均数是正态分布,样本均数的差值也往往是正态分布,因此是可以开展t检验的。
t检验没错!但错在结论。两组偏态分布数据比较均数差异性,当t检验P<0.05,则说明两组均数存在着统计学差异。问题是,两组均数存在着统计学差异,能够说明两组数据有差异吗?
举例分析
我们来看个案例。两组数据的比较,为了让大家能够明白原理,我找了两组数据:一个严重偏态分布,一个正态分布(诸位可以看下面直方图)。那么两组数据的差异性分析,能用t检验比较吗?
两组数据共同的特点是,均数差不多的!
对于大样本数据比较,t检验本身是没错的。t检验结果P=0.875.
但是这个结果能不能真实反映两组总人群真实差异呢?显然,我们发现两组数据直方图有差别,数据分布不同!
对于偏态数据,反应两组数据分布的好方式不是平均值,是中位数!均数没有差别(P=0.875),不代表两组数据真的没有差别。
那么两组数据中位数是多少呢?
第一组:6.00
第二组:7.78
这个具有代表性的中位数,显示了两组明显的差异!您说该有差别还是没有呢?
我现在用两样本秩和检验,结果如下:
P<0.001,存在着统计学差异,而两组中位数差值是-0.539,95%CI置信区间-0.733--0.347,
大规模偏态数据,t检验本身方法没有错,但其结果能不能反应两组数据平均水平的差异性呢?这是很难说的。
而此时,秩和检验比的是排名位置的差异性,显然没有任何问题的!且由于样本量较大,检验效能仍然很高!

所以说两组严重偏态分布用t检验,不是t检验本身有问题,而是其结论得到均数差异性并不能代表着两组数据真实的差异性!因为偏态分布不能用均数来代表其平均水平!
不知道现在诸位能不能明白我的意思呢?

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.推荐!这个流行病大神制作的公共卫生研究小工具,可以计算标准化率及置信区间
5.全网最简单的SPSS教程,160页PPT学会SPSS统计分析!免费下载!
6.【免费】精制原创11讲短视频下载!零基础者2小时掌握医学统计学基本原理
特别提醒:上述资源每天限分享和下载一个。

培训通告

2021年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班。如果您有需求,不妨点击查看:
来参加吧,通俗易懂的统计培训课:R、Meta、重复测量以及量表分析
如果您觉得文章不错,
为我们打“call”,
点击“分享”吧
(0)

相关推荐