医学统计学傻瓜教程（2019版） / 开普饭

一、基础篇

1、均数与标准差

【例1】本组105 例，男55例，女50例；平均年龄：62.3±6.1岁，所有入选病例均符合1999年WHO高血压诊断标准。

举这个例子是为了说明“均数”与“标准差”的概念。我实在不愿意多花时间阐述一些概念性的东西，但是由于“标准差”的概念实在太重要了。【例1】中的数据“62.3±6.1”，“62.3”就是年龄的均数，均数的概念大家都懂，那么后面的“6.1”是什么呢？它就是标准差。有人可能会问，表达一组人的平均年龄，用均数就够了，为什么还要加一个标准差呢？先看下面的一个例子：有两组人，第1组身高（cm）：98、99、100、101、102；第2组身高（cm）：80、90、100、110、120，这两组人虽然身高的均数都是100cm，但是，仔细观察，第1组的身高很接近，第2组的身高差别很大，故仅仅用一个平均数表达一组数据的特征是不完整的，还需要用另一个指标来表达其参差不齐的程度，这就是标准差。统计学上对一组测量结果的数据都要用“均数±标准差”表示，习惯表达代号是：±s，具体例子如：平均收缩压120±10.2mmHg。

我想现在同学们都已知道标准差是什么东东了，那么，标准差是怎样得到的呢？有一个比较复杂的计算公式，我们不必去深究这个公式是怎么样的，只需知道标准差越小，说明数据越集中，标准差越大，说明数据越分散。撰写医学论文的第一步是收集原始数据，如：

第1组身高（cm）：98、99、100、101、102；

第2组身高（cm）：80、90、100、110、120。

在论文中并不是直接给出原始数据，而是要以±s方式表示。利用软件《临床医师统计学助手 V10.0》，只要输入原始数据，就能自动计算出均数及标准差，即第1组平均身高：100±1.58cm；第2组平均身高：100±15.81cm，如下图。

2、两样本均数t检验

【例2】目的研究中药板兰根对“非典”疗效。方法将36例“非典”患者随机分为治疗组19例，采用常规治疗+板兰根口服，对照组17例，仅采用常规治疗。结果治疗组平均退热时间3.28±1.51d；对照组平均退热时间5.65±1.96d，两组间对照差别有极显著意义（p＜0.01）结论中药板兰根对“非典”有显效疗效，实为国之瑰宝。

这是最常见的一种统计学数据处理类型，统计学述语叫做“两样本均数差别t检验”，说得通俗易懂一些，就是检验两组方法所得到的数据到底有没有差异，或者说，差异是否有意义。我们平时的思维习惯是，数据的大小还用得着检验吗？这是小学生都会的问题，但是统计学可不是这样简单的看问题。

可能还没有说明白这个问题，下面举一个简单的例子。我们的目的是得出这样一个结论：“北京出产的西瓜比上海出产的西瓜大”。最可靠的方法是把全部的北京产西瓜和全部的上海产西瓜都称重量，得到两个均数，然后比大小即可，可是智商正常的人并不会这样去做，通常的做法是，随机选一部分北京的西瓜和一部分上海的西瓜，先让这两部分西瓜比大小，然后推断到底那里的西瓜大。这种方法是“窥一斑可见全豹”，统计学述语叫做“由样本推断总体”，事实上，我们所做的医学科研都是基于这种方法。

再回到上面的例子，假如我们有二种做法：

A、随机选2个北京西瓜，平均重量是5.6±0.3kg；再随机选2个上海西瓜，平均重量是4.3±0.25kg；

B、随机选1000个北京西瓜，平均重量是5.6±0.3kg；再随机选1000个上海西瓜，平均重量是4.3±0.25kg。

凭我们的直觉和生活常识，由B推出“北京的西瓜比上海西瓜大”这个结论的把握性就非常的大，而A则基本上推不出这个结论。为什么这样说呢？北京全部的西瓜叫“总体”，随机选择的2个西瓜叫“样本”，通常我们不会拿“总体”去比大小，这太困难了，而总是拿“样本”去比大小，这样就可能会有一个问题，你所抽到的样本，可能都是最大的西瓜，也可能都是最小的西瓜，这样由样本来推断总体就可能会出现错误（抽样误差），如何来解决这个问题呢，这就是统计学所研究的问题，总体来说，样本量越小，抽样误差越大，由样本推断总体的把握性越低，从上面例子中，相对B而言，A的可靠性就很低。现在，终于可以引出我们的主题了，统计学处理本质是研究由样本差异推断总体差异的把握性有多大，这种把握性在统计学上用p值表示。如p＜0.05或P＜0.01，可以理解为由样本差异推断总体差异的把握性达95%或99%以上；如P＞0.05，可以理解为这种把握性在95%以下。

上面所讲的实已为统计学之精髓，也是本教程最艰难的部分，建议多看几遍。如果天生愚鲁，还是不明白，也没有关系，我们可以简单的理解为所谓统计学处理，实际上是为了弄明白两组数据的差异由抽样误差造成的可能性有多少？这种抽样误差的可能性由p值来表示，p＜0.05或p＜0.01，说明抽样误差的可能性很小（低于5%或1%），两组数据差异有显著意义；p>0.05，说明抽样误差的可能性很大（高于5%），两组数据差异没有显著意义。

所以，统计学处理的中心任务是求p值。那么如何求p值呢？这里本来需要例举出一大堆的数学计算公式，但是现在不这样做，我们由软件来直接计算。结合【例2】，具体操作如下。

【例2】中一共有6个数据：第一组均数（X1）、标准差（S1）、例数（N1）与第二组均数（X2）、标准差（S2）、例数（N2），把这6个数据输入软件对应的框内，该软件就会利用预先存储的公式自动计算t值，并得出p＜0.01,由此判断两组间的差别具有极显著的意义（如果没有想成为统计学专家，就不必去理解“t值”是什么了，知道“t值”是为了求“p值”用的就可以了），如下图。

3、配对计量资料t检验

【例3】目的研究音乐胎教对胎儿运动技能培养的效果。方法 10例28～32周孕妇，分别记录听音乐（水浒传电视剧主题曲）前每小时的胎动次数及听音乐后每小时的胎动次数，结果数据如下表所示，音乐胎教后胎动次数增多，差别有显著意义（p＜0.0525）结论音乐胎教可增强胎儿运动技能，对培养我国运动天才有现实意义。

显然【例3】与【例2】有所不同，主要是【例3】两组间的数据可以前后配对的。我们经常碰到这种情况，即同一个体做两次处理，如治疗前检测某一指标，治疗后再检测某一指标，而后做治疗前后配对比较，以判断疗效。这种情况如何进行统计学处理呢？在软件中选择“配对资料t检验”，分别输入上面的2组数据，软件自动计算p＜0.05,差别有显著意义，如下图。

可能同学们会问,【例3】的情况，也可以把胎教前视为对照组，求得平均胎动次数是：21.8±5.31，胎教后视为治疗组，求得平均胎动次数是：24.0±6.31，然后套用【例2】的方法，用“两样本均数t检验”行不行？这样虽无大错误，但是将会导致检验效率的下降，就是说，如果数据差异较大时，两种方法均可，如果数据差异较小时，用“配对t检验”会显示出差异有意义，而用“两样本均数t检验”时，可能差异无意义。切记，非配对资料误用配对t检验，则是错误的。

4、计数资料卡方检验

【例4】目的研究医患关系对重症病人死亡率的影响。方法根据问卷调查对收住重症监护病房的病人分为“医患关系良好组”与“医患关系紧张组”，比较两组间的住院死亡率。结果 “医患关系良好组”25例，住院间死亡3例，死亡率13.6%，“医患关系紧张组”23例，住院间死亡9例，死亡率39.1%，两组间差别有显著意义（p＜0.05）结论医患关系紧张增加重症病人的住院死亡率，可能与医师害怕挨打而治疗方案趋向保守有关。

这又是一个非常常见的一种统计学数据处理类型。【例4】中所提供的数据是“比例”，或百分数，与前面三个例子不同，前面三个例子所提供的数据则是直接在病人身上测量到的数据，如收缩压120±10.2mmHg、身高100±15.81cm等，我们把【例4】中的数据叫做计数资料，而【例1、2、3】中的数据叫做计量资料。计数资料无法用“均数±标准差”形式表示，只能用比例表示，如：死亡率13.6%、30例中显效10例（10/30）等。

显然，对于计数资料，再用t检是不适合了，必须用卡方检验。卡方检验的步骤是：先求出X2值（类似于t检验时先求t值），然后进行判断：

⑴ 如果X2＜3.84，则p＞0.05；

⑵ 如果X2＞3.84，则p＜0.05；

⑶ 如果X2＞6.63，则p＜0.01。

解释一下，上面的两个数字“3.84”与“6.63”是查“X2界值表”得来的，只要记住即可。所以，卡方检验的关键是求出X2值。为了求出X2值，必须先介绍“四表格”概念。“四表格”的形式如下，关键数据是 a、b、c、d 四个数，X2值就是通过这四个数据计算出来的（这里仍不介绍公式，由软件计算。）。

现将【例4】中的数据填入“四表格”即如下图。

当你学会了填“四表格”数据之后，就能利用软件非常容易的进行卡方检验了，本软件提供与“四表格”完全相同的界面，选择“计数资料卡方检验”，把数据填写正确之后，就自动计算X2值并判断结果，【例4】X2=4.702＞3.84，故p＜0.05，如下图。

在此说明一下，大家可能已注意到本软件中出现的“理论数（T）”，在此不解释“理论数（T）”是什么，只要记住，当例数（n）＜40或T＜1时，应采用“精确概率法”，这个方法太复杂，在此不作介绍。

5、配对资料卡方检验

【例5】目的研究蚂蚁对慢性乙型病毒性肝炎的疗效。方法 40例慢性乙型病毒性肝炎患者每天口服活蚂蚁10只，半年后检查e抗原。结果治疗前e抗原阳性率67.5%，治疗后e抗原阳性率下降为12.5%，X2=15.75（p＜0.01）结论活蚂蚁对慢性乙型病毒性肝炎有显著疗效。

与【例3】相似，这也是一个治疗前后对照的实例，所不同的是【例3】是计量资料，【例5】是计数资料，这时，该采用“配对资料卡方检验”。

首无，我们把本例的原始资料整理如下：

然后，在软件中选择“配对资料卡方检验”，把上面的数据分别填入表格中（请注意与原始数据的对应关系）， X2=15.75，p＜0.01，如下图。

二、提高篇

6、方差分析（F检验）

【例6】某院外科对三种消毒剂的杀菌效果进行考察。经过使用，以被消毒物品的残余细菌数（cfu/m2）为评价指标，试验结果如下表，试问三种消毒剂的效果是否存在差异？

现在，我们来分析这个例子，与【例2】一样，本例也是计量资料，所不同的是，【例2】是两组，本例是三组。是不是本例也可以用“两样本均数t检验”方法，分别进行两两比较呢？答案是不行的，将会导致检验效率的下降，这时正确的统计学方法是方差分析（F检验）。有必要重复一次，两组计量资料的比较应用“t检验”，多组计量资料的比较应用“F检验”，下面介绍方差分析的方法。

（1）选择“方差分析（F检验）”，分别输入三组的原始数据，软件会自动计算每组的均数±标准差，如果已知每组的均数±标准差，可在对应的表格内直接输入，不必再输入原始资料。

（2）软件会自动计算F值（注意不是t值）及p值，p<0.05或p<0.01表示三组间不全相同，即至少有两组是不同的，而不是全不相同。

（3）当知道三组消毒剂的效果不一样后（p<0.05），我们仍然无法知道是不是三种消毒剂每一种效果都不一样，也不知道三种消毒剂哪一种效果最好，哪一种效果最差，如果想回答这些问题，需要进行两两比较。本软件提供2种两两比较的方法，即“两两比较q检验”及“两两比较LSD-t检验”，结果基本上是一致的。

7、多样本率卡方检验

【例7】某院研究不同药物对焦虑患者的疗效，患者随机分为三组，分别为阿米替林组、帕罗西丁组、安慰剂组，问三组间疗效是否存在差异？

四表格卡方检验是最简单的形式的卡方检验，当遇到多组卡方检验时，需要采用行×列表卡方检验，如下图。

几点说明：

1、行×列表卡方检验具有广泛的适用性，但要求每个格子的理论数足够大，如果发现某个格子中的理论数太小，应扩大观察例数。

2、于等级资料，如临床疗效分为治愈、显效、好转、无效，临床检验结果分为 +、++、+++ 等，带有明显的半定量性质，对于等级资料行×列表卡方检验缺乏敏感性，应采用秩和检验或Ridit分析（下述）。

3、行×列表卡方检验结果p<0.05或p<0.01表示各组间不全相同，而不是全不相同。

8、用秩和检验及Ridit分析

【例8】某院研究不同药物对支气管哮喘的患者的疗效，患者随机分为二组，分别为激素组、中药组，问两组间疗效是否存在差异？

本例为等级资料，应采用秩和检验或Ridit分析，如下图（70%的医学杂志对等资料误用卡方检验！）。

秩和检验与Ridit分析可任选一种方法，首先都是求出“Z值”，然后得到“p值”，本例p<0.01，结论：激素组与中药组两组间疗效差异有显著意义。

9、直线相关与回归

【例9】测量不同年龄的儿童身高数据如下，问儿童年龄与身高是否存在关联?

在科研与临床工作中，许多问题是存在关联的，如体表面积与身高、体重之间有明显的关联，直线的相关与回归即是研究两个变量之间的关联问题。两个变量的关联性分析，可以分解为两个问题，一是这两个变量是否存在相互关联，即相关问题；二是如果两个变量是有关联的，那么是什么样的数量关系，即回归问题，通常以回归方程来表示。现在回到【例9】，研究儿童年龄与身高之间是否存在关联呢？在软件中选择“直线相关与回归”，然后输入以上的数据，如下图。

计算结果p<0.05，结论是儿童年龄与身高之间存在显著的关联，并得出回归方程 y=44.5278+10.9822x(y表示身高，x表示年龄)。

三、结语

现在已经讲完了9个实例，终于松了一口气。掌握统计学的诀窍是将实际中碰到的的情况，对照本教程中实例，“对号入座”即可，而具体计算过程，可由软件去完成。最后再啰嗦几句：1、两组计量资料用t检验；2、多组计量资料用方差分析（F检验）；3、计数资料用卡方检验； 4、等级资料用用秩和检验或Ridit分析。

医学统计学傻瓜教程（2019版）

相关推荐