回归法控制混杂的基本过程 | 30天学会医学统计与SPSS公益课(D29)

混杂偏倚,特别是观察性研究的偏倚,需要重点关注。常见情况下,我们会采用回归分析的方式来进行处理。关于这一点,我们在之前的几讲重点进行了介绍。

从目前国内的文献来看,研究者可能懂得如何利用回归去分析和控制偏倚,但是国内学者在写作方面规范性却不足。

因此,本文着重介绍,如何结合不同的统计工具控制混杂偏倚,撰写一篇学术论文。

1.混杂偏倚控制的基本统计学过程

对于初学者来说,混杂偏倚控制实际上遵循的统计过程,跟之前的系列课程介绍的内容非常相似,它们是现况调查的统计分析策略病例对照研究的统计分析策略队列研究的统计分析策略。这三篇文章,我是从回归分析的第一个目的----影响因素角度来阐述的。也就是说,如果诸位开展观察性研究,探讨影响结局的多个因素,那么基本的统计策略可以从上三篇文章学到很多内容。

控制混杂偏倚的回归方法,其统计策略又是如何呢?一般来说控制混杂的回归与探讨影响因素的回归,统计过程相似,但是具体思路上有所不同。

混杂偏倚控制的基本统计过程分为四步骤:

第一步,统计描述

第二步,分人群差异性比较(均衡性比较)

观察性研究重要的特征是人群分组不均衡,由于人群是自然分组,人群的特征譬如年龄、性别在暴露因素的不同暴露水平(暴露组/非暴露组;低暴露水平组/高暴露水平组)之间会有差异性。因此,一般情况下首先需要探索性分析,究竟有哪一些人群的特征分组是不均衡的。

是否分组不能均衡可以通过差异性比较方法(t、F、卡方、秩和),以P值来反映。如果P值<0.05,则可以被认为是潜在混杂因素(不能说是混杂因素,毕竟混杂因素要同时满足3个条件)

值得注意的是,人群如何分法,会因不同研究类型而定;

病例对照研究是按照病例组/对照组分型;比较病例组和对照组,差异有无统计学意义

一般队列研究是按照暴露组/非暴露组进行分组比较;比较不同暴露组别,差异有无统计学意义

横截面调查可灵活处理。

随机对照研究一般按照干预组/对照组进行分组。

第三步,  简单关联性分析

简单关联性分析意味着,研究要初步探索暴露因素/处理因素与结局的关系。关于这一点,可以采用的方法包括基础统计学方法,或者单因素回归分析,两者结果大致相同(包括P值和效应指标)。比如,如果是二分类数据的结局,则应该采用卡方检验,其结果和单因素logistic相似,两种方法均可以计算除效应指标OR值。OR值结果一致。


第四步,多因素分析  
一般情况下,研究者基于第一步挑出潜在混杂因素与暴露因素一起建立多因素回归模型,从而在控制混杂偏倚的基础上探讨暴露因素与结局的关联性。
必须强调下,这里的潜在混杂因素,一般便是就是第一部分,分组不均衡的(比如P<0.05)的因素。此外,若研究者认为从因果关系角度考虑,有一些因素应该理论上是混杂因素,也可考虑纳入,比如年龄、性别、病情等。回归分析中,混杂因素不应太多,否则会导致建模失败。
具体回归分析方法是,这里可以考虑的包括以下几种:
上述就是混杂偏倚控制的基本策略,当然现实中,一篇文章的内容要更为丰富一些。诸位应用时不应该循规蹈矩。

2. 案例分析

我这里结合2个案例,介绍统计过程与报告撰写。

1



案例1:队列研究

这是一项关于吸烟与经皮冠状动脉介入治疗的ST段提升的心肌梗死(STEMI)患者的关联性研究。所有患者均接受皮冠状动脉介入治疗,研究的暴露因素为最近吸烟状态,因此人群分为吸烟组和不吸烟组。研究主要结局为全死因死亡、住院、以及复合终点(死亡或者住院)。
这是一项队列研究,由于研究结局是生存时间结局,作者采用了LogRank和Cox回归等方法开展分析。
首先,研究对象的分人群差异性分析

此处进行均衡性比较。该研究暴露因素为吸烟,分为吸烟组/不吸烟组,样本量分别为1471人和1093人。研究者对年龄、性别、高血压、血管项指标、血液项指标开展比较分析。2564例STEMI患者中,近期吸烟者1093例(42.6%)。吸烟者年轻10岁,合并症较少,在诸多的特征上均与不吸烟者存在着统计学差异。分组不均衡者即为潜在混杂因素,从下表可以看出,该研究有不少潜在的混杂因素,其中最典型的就是年龄。
然后,开展简单关联性分析
该研究结局指标比较多,关键的指标是人群死亡率、心力衰竭住院率、死亡或心衰住院率(复合指标)、再梗死率。由于是生存时间结局,因此,采用的方法包括采用logRank方法和单因素Cox回归分析的方法,同时,绘制生存曲线。logRank负责计算P值,Cox回归负责计算HR值以及95%置信区间。
结果显示,与不吸烟者相比,吸烟者的1年内全因死亡率(1.0% vs 2.9%;p<0.001,A图)和死亡或心衰住院率(3.3% vs 5.1%;p=0.009,C图)较低,两者的再梗死率相似(D图)。单因素结果显示吸烟者似乎可以预防不良结局。
最后,采用多因素回归的分析,调整混杂因素的影响
本文采用多因素Cox回归分析来进行,作者首先指出了,模型校正的变量即“协变量”有哪些:

The following variables were used in the adjusted models: age (as  a continuous variable), sex, hypertension, hyperlipidemia, diabetes, left anterior descending (LAD) versus non-LAD infarct artery, baseline TIMI (Thrombolysis In Myocardial Infarction) flow grade 0/1 versus 2/3, and symptom-to-firstdevice time.

在分析中,作者没有一股脑全放进去开展了校正,而是建立了多个模型。由此从中可以看出各个协变量的影响。
首先,只建立了2因素的Cox回归模型,自变量包括年龄和吸烟状况,然后在此基础上,继续调整其它上述的协变量(第2、3个Cox模型),最后作者建立了第4个模型,在此基础上加上心肌梗死面积作为协变量(IS)。
我们以全死因死亡率为例进行分析(下图A)。下图是森林图,取代了我们常见的回归分析结果表,结果简洁直观。
图A第一行,未调整,指的是单因素Cox回归结果(与上一部分结果一致),HR值的置信区间(横向)0.24-0.58,具有统计学意义。第二行为2因素Cox回归,校正年龄影响,P=0.85,没有统计学差异,则说明年龄对效应值HR影响很大,年龄是混杂因素;第三行、第四行纳入更多的协变量,结果几乎没有差别,说明其它变量不太是混杂变量,或者造成的偏倚较小。
对于初学者而言,无须如本例一般,多次建立回归分析。初学者只要将潜在混杂偏倚纳入模型建立回归分析即可。

2



案例2:病例对照研究

案例2某医师基于某医院开展病例对照研究,探讨糖尿病状态对冠心病发病的影响,收集新发冠心病患者作为病例组,收集同期医院非循环系统疾病患者作为对照组,研究的变量是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。
对于本案例,除了统计描述之外,同样也是三步骤进行:

第一步,分析差异性
与队列研究不同,病例对照研究一般是按照是否病例进行分组。本例是按照是否发生冠心病分为病例和对照组。需要分析比较的因素,包括年龄、性别、是否高血压、心电图状况。结果显示,年龄、性别、心电图情况在两组人群分组均不均衡,它们是潜在的混杂因素。
第二步,简单关联性研究
病例对照研究简单关联性分析,在之前的文章中已经介绍(病例对照研究的统计分析策略),采用卡方检验或者单因素logistic回归分析的方法。
本例采用卡方检验得到卡方值、P值、OR值和置信区间
第三步,多因素回归分析
对于多因素回归的分析结果,可以以两种形式来体现。
第一种,将所有自变量结果全部列入文章中进行介绍。如下表:
第二种,统计表的内容也可舍弃其它协变量的结果,只取主要暴露因素的分析结果
一般国内的杂志更推荐前者,因为信息量较多,且不容易造假。
本例结果在文字描述上,可以按照以下格式书写结果:“在调整了年龄、性别、心电图异常情况、糖尿病后,结果发现,高血压与冠心病发病的关联存在着统计学意义(OR=10.92,95%CI 4.20-28.40, P<0.001)

有些研究者对其他协变量的作用也进行了详细了介绍。我觉得没有必要,占了更多篇幅,且焦点分散,毕竟这篇文章是探讨糖尿病对冠心病的影响,其他变量是否能够引起糖尿病,这不重要,在结果、在讨论都无需花笔墨去分析。这一点是探讨多个影响因素研究和控制混杂偏倚论文写作时重大的区别。
(0)

相关推荐