30天打卡学习医学统计与SPSS(Day 3):成组两样本t检验
30天打卡学习医学统计与SPSS
Day 3: 成组两样本t检验
隶属第二章:实验性研究定量数据的统计分析策略
实验性研究,最常见的研究设计是将研究对象随机分为试验组和对照组,得到两组数据各自的研究结局,采用统计学方法比较这两组结局总体的差异性。当两组结局为定量指标,研究目标是探讨总体均数有无统计学差异时,可能考虑的统计学方法为两样本t检验。
实例分析

将出生28天的20只大鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料组别的大鼠体重正态性情况如何?数据见数据库weight.sav.

思考
这个案例来源于上一讲,需要思考:
-这个案例由几个变量组成?
-研究的结局变量是什么?
-结局变量属于什么类型的变量?
-如果是定量变量数据,是偏态还是正态分布?
-研究目的是比较,那比较的组数是多少?
案情分析
这个案例包括2个变量,一个是大鼠体重(g),另外一个是分组变量。主要研究的结局指标是大鼠体重,为定量变量数据;比较的组数是两组(高蛋白组和低蛋白组)。本案例目的是比较两组总体均数有无统计学差异。
统计分析策略
两组定量数据的比较,主要的方法有两种。一种是成组两样本t检验,一种是非参数秩和检验(wilcoxon 两样本秩和检验)。
一般来说秩和检验是t检验的补充,如果t检验不适合,就会考虑秩和检验。所以统计分析时,要考虑t检验是否合适?条件是否满足?
总的来说,t检验要求的两组、定量、正态、独立、方差齐的数据比较。前面两个要求和wilcoxon 两样本秩和检验相同,差别在于t检验要求数据符合正态性、独立性、方差齐性三个要求。这里对三个“性”进行简单的解释。
正态性。正态性条件是要求各组数据的总体分布为正态分布。一般来说,要求正态性检验P>0.05。此外,实际操作上,P<0.05,但直方图显示大致正态也可以(近似正态分布)。关于正态性问题,上一讲已经有所陈述。此外,这里的正态性要求,指的是“各组”数据(本例是2组数据)分别满足条件。
独立性。独立性的意思是,两组数据的观察值相互独立,指的是两组数据不存在着相互相关性。例如,某个临床研究有两组数据,分别是14名高血压患者降压药服用前的血压和服用后的血压。显然,如果有名患者服用前血压很高,那么服用后血压也不会低;反之,服用前血压不高,那么服用后血压也不会高,所以两组数据存在着相关性。一般情况下,医学研究,如果是随机化分组,那么两组数据一般可以认为是独立的。如果是配对设计,那么两组数据就不独立!所以独立性的特点,一般我们根据研究设计主观判断即可。
方差齐性。方差齐性的意思是两组数据的方差大致相同。所谓的方差是标准差平方,其实也意味着标准差大致相同。比如有两组数据分别20±10,20±20。这意味着标准差相差一倍,则方差相差3倍,方差大不同。这种情况也不能直接用t检验。方差齐性的论证也通过统计软件完成;如果方差不齐,那么有类似的代替方法,我稍后介绍。
总结来说:


至于方差齐性,一般与SPSS t检验结果一同产生,我们稍后围观。
SPSS 操作
t检验SPSS操作界面:分析—比较均值—独立样本t检验

两样本t检验具体参数设置
“检验变量”放入体重(weight),“分组变量”放入分组(group),同时进行“定义组”。

① 检验变量:即放入结局指标,本例为体重(weight)
② 分组变量:放入group。这里“定义组”需要进一步明确,见下图:

定义组:即指定比较哪两组。在本例,我们比较高蛋白和低蛋白组,他们在数据库赋值为1和2,因此这里填写1,2;此处填什么数据,需要和数据库的赋值对应起来,且不能填写文字或者字母,只能填数字。因此提醒诸位:构建SPSS数据库时一般赋值建议用数字,不要用文字或者字母。
两样本t检验分析结果及解释

第二张表,则给于了t检验的的结果,该结果分为三个部分

结果及表格的规范表达
规范的统计表(其中一种形式)为:

注意:
①现在越来越多的文章需要提供各组数据的95%CI, 所以强烈建议诸位今后统计分析时写上各组的95%CI或者差值的95%CI。
②t检验的结果可提供t值,也可以不提供t值,一般最好提供P值,t和P需要斜体。
③关于小数点,一般保留1-2位,其实1位就可以,P值除外。很多杂志要求不同的P值提供小位数不同,但P值一律保持3位是不会错的。若碰到SPSS结果为0.000的,书写成<0.001。
可以看看另外一个文献的表格,提供的是多个研究因素下的差值和P值。

来源:JAMA Intern Med. doi:10.1001/jamainternmed.2020.0104
何种场景可以采用两样本t检验呢?
郑老师总结
是否采用t检验,要看其指标理论上是何分布,直方图形态是否大致中间多或者两边少,观其是否极端异常值;正态性检验是辅助的作用。
以下本人的分析习惯,仅供参考:
如果指标理论上属于偏态分布,则放弃t检验
如果该指标理论上属于正态分布,无论大小样本,该只要直方图大致中间多或者两边少,无特别异常值,均可采用t检验
如果指标理论分布不明确,但样本量较大(各组>50),该只要直方图大致中间多或者两边少,无特别异常值,均可采用t检验,无需考虑正态性检验结果。
如果指标理论分布不明确,但各样本量不大(各组<50),若两组数据正态性检验P值均>0.05,可以考虑采用t检验,若至少一组<0.05,建议放弃t检验
无论大小样本,如果直方图呈一边倒趋势,或者存在若干个极端异常值,放弃t检验
最后,两组数据比较,任何一组P<0.05,均可以放弃t检验而选择秩和检验(但我也很少这么做)
SPSS 操作录屏