我来科普下:什么是置信区间? 为什么置信区间非常重要?

医学研究,特别是随机对照试验,置信区间非常重要。但它中文论文文献中被长期忽视,因而我今天特地来科普下。

统计分析结果中,P值很重要。人人都爱P值!但光光这个“屁用”的值是不够的。我一直在说,统计分析报告,要效应值、P值、置信区间三者皆具。

先举个例子:一项临床试验,研究对象是高血压患者,随机被分为两组,分别用药物联合运动锻炼(试验组)和药物(对照组)进行血压控制,对每人治疗前、后收缩压(mmHg)进行测量,剔除失访人群后,分别得到实验组和对照组血压下降值,比较两组人群血压下降值有无统计学差异。

在这个案例中,探讨联合干预相对药物干预的效果,要解决的的几个关键问题:

第一,到底有没有效果?

第二,有多大的效果?

第三,有效果的可信度高不高?

大多数中文论文只回答了第一个问题,也就是到底有没有效果。

比如采用两样本t检验来进行分析,如果存在着统计学差异,那么我们会说:试验组、对照组干预前后差值差异具有统计学意义(P=0.005)

但是这一统计结果没有回答干预措施到底有多大的效果。统计学效果指的是效应值。关于效应值,我在之前的文章写过了。希望大家在看本篇文章之前可以浏览下下面的推文。

@所有人:临床研究请报告效应值!什么是效应值?

在本例研究中,效应值是4.70 mmHg。

但是光报告效应值还不够,我非常强烈建议同时报告效应值的置信区间,一般是95%的置信区间。

1. 什么是95%置信区间

置信区间,英文是Confidence Internal ,缩写是 CI,所以95%置信区间,又称为95%CI,它是关于总体参数不确定性的描述。

那么什么是总体参数呢?说来话长~~~

统计学是抽样研究,通过抽取一定数量的样本来开展分析。比如,我想了解所有人服用高血压药物的疗效。但是,我总不能所有人都调查一番,一般是抽取少量人,比如300人,询问他们高血压服用后血压下降水平。比如,经统计发现300人血压平均下降20.5mmHg。这个20.5我们称之为样本的信息,或者专业术语是统计量。但是20.5mmHg不全是我想要的,我想知道所有人服用高血压药物后的疗效是多少。

于是需要进一步分析,根据20.5 mmHg的信息去猜总体的信息,总体的信息就是参数。

但是猜总体,能够猜得准吗?猜不准!统计分析只能猜个大概!

于是,猜出总体的过程中,诞生了两个同出一源的概念,P值和置信区间。

首先是P值。对于非统计专业人士来说,P值可以认为两组均数总体上没有差异的概率(注意:这是不太正确的说法,但是对于非统计专业人士来说,这样理解没问题)。比如,试验组、对照组干预前后差值差异具有统计学意义(P=0.005),意味着,疗效没有差别的概率不到千分之五!所以我们认为有差别。

因此,这个P值其实是一个粗暴、武断的结论,它只回答了"到底有没有差别"这个问题。

而置信区间则告诉我们:它们差别是多大!

我刚才算出来两组差值是4.70,这意味着总体上两组疗效真的差4.7 mmHg吗?不是的,这个差别是样本的差别,总体还没有猜呢?

实际上,我们无法准确猜出总体的位置,只能猜总体大概的位置,所以总体值一般是一个区间。你看它的英文:Confidence Internal,意思是信心区间。因此,95%置信区间可以通俗地(但不完全正确)理解为总体均数有95%的可能性落在这一区间内(这个理解虽然但不完全准确,但对于非统计专业人士,这样理解没有毛病)。

因此,我们的结果就很丰富了:

·试验组、对照组干预前后差值差异具有统计学意义(差值4.70,95%CI1.48-7.91,P=0.005)

完美!

2. 置信区间能提供什么信息?

2.1 置信区间能够判定是否具有临床意义。置信区间是信息性的,因为它们显示了结果支持的效应大小的可能范围。置信区间给我们的非常重要的东西是指出,总体均数不是4.70!两组药物疗效虽然P<0.05,而显示有效,但并非就是是临床上的有效!

比如说临床上药物有效的界值是3mmHg(这个是我举例的,别信以为真),那么我这药物还值得推荐吗?

药物联合运动锻炼(试验组)相对单纯药物组的效果是4.70mmHg,95%CI1.48-7.91,说明效果最低是1.48,最高是7.91,而不是4.70mmHg。我们用工字型反映置信区间的位置。

从上图可以得到一些现象:

(1)工字型置信区间与差值0值线不交叉,则P值<0.05。

(2) 总体均数1.48靠近与0值线,而穿过临床意义的3.0线。显然总体均数很可能低于3.0 mmHg的。既然如此,我们不能说这个药物肯定有临床价值了!

所以置信区间给出的信息,等同于P值,而又远远大于P值,特别是置信区间的下限!

2. 2 当P<0.05 ,置信区间可帮助判定项目结论的可靠性!

有两个研究,甲和乙。经分析,两个研究P值都小于0.05,但结果是不同的。第一,可能差值差别不大,第二,置信区间不同。这里说明两件事情,第一,甲乙研究效应值相似,但是,乙研究的结论可靠性远不如甲。因为乙的置信区间较宽,意味着猜测总体效应猜得不准。

当碰到乙的情况,而你又算出来P值小于0.05时,千万别觉得你做出了大成果,也许,真的是你运气比较好。

2.3 当P值大于0.05,置信区间也可提示更多的信息。

下面这幅图,四个结果置信区间都包括了0直值线,意味着P 均大于0.05,但是各个置信区间带来的信息是有区别的。

图来自“ DOI: 10.5694/mja2.50926 ”

第一条,置信区间大部分位于正值范围内,虽然P 大于0.05,但该干预措施很可能是有效果的。没有统计学意义原因很可能是样本量不够,造成置信区间过宽。

第二条,置信区间位于临床意义-3、3线之间,意味着没有效果

第三条,置信区间大部分位于负值范围内,虽然P 大于0.05,也能说明干预效果不尽如人意。

第四条,显示出了结果的不确定性!

3. 什么时候需要计算置信区间

3.1现况调查,描述人群主要指标时

现况调查主要目的就是了解人群现状,了解总体人群现况。因此,描述均数和率的时候,非常有必要带上置信区间!

比如:279名护生护生患者安全感知总分71.42±10.91分(95%CI70.14-72.71) 。

又比如,2345名社区人群高血压患病率为35.5%(95%CI 31.1%-39.6%)。

3.2疗效和发病危险性、预后评价时

在RCT研究、病例对照研究和队列研究时,当我们计算率差、均差、OR、RR、HR,千万别忘记同时计算置信区间!像下面的结果,率差没有,置信区间也没有,是不行的。

结果显示:实验组总有效率为 83.3%(35/42),对照组总有效率为84.5%(38/45),两组比较差异无统计学意义(P>0.05)

4. 总结

相对于P值来说,置信区间信息量更大,其江湖地位与P值相当。因此,我建议医学研究撰写统计报告时,必须同时报告效应值、P值和置信区间,让读者能够看到更多的信息。

计算不难,能做到锦上添花,何乐而不为呢?

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.推荐!这个流行病大神制作的公共卫生研究小工具,可以计算标准化率及置信区间
5.2006-2020中国卫生统计年鉴完整合集免费下载
6.全网最简单的SPSS教程,160页PPT学会SPSS统计分析!免费下载!
7.【免费】精制原创11讲短视频下载!零基础者2小时掌握医学统计学基本原理
特别提醒:上述资源每天限分享和下载一个。

培训通告

2021年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班。如果您有需求,不妨点击查看:
来参加吧,通俗易懂的统计培训课:R、Meta、重复测量以及量表分析
如果您觉得文章不错,
为我们打“call”,
点击“分享”吧的
(0)

相关推荐