很多人在多因素回归时候,喜欢用逐步回归法挑选自变量。我今天要来纠正下,不要觉得这种方法值得使用!这篇推文,是初学者构建回归模型的下篇。在上一篇推文中,我介绍了,初学者可以先单后多构建回归模型,讨论了单因素P值多大时候才被纳入多因素回归模型中。回归分析时,一定要单因素回归P<0.05的自变量纳入多因素回归吗?我在之前文中说过,构建回归模型要“严进严纳”:严进严纳的方法基本理念是,即在纳入自变量的时候需要严格纳入,在排除自变量的时候,没有多大意义的别放在最终模型中来。严进:合理的挑选自变量纳入多因素回归模型严纳:少留变量在最终模型,多淘汰一些变量出去。怎么淘汰呢?今天我们就讨论一下,逐步回归法的应用一般来说,根据严进严纳的原则,就是开展回归的自变量要少一些。在这种情况下,逐步回归法就发挥了重要作用。逐步回归法一般分为三类1)向前逐步:自变量从少到多放到模型中,寻找最少自变量,最佳的建模效果2)向后逐步:自变量先全部放入回归模型,再逐步剔除冗余自变量,寻找最少自变量,最佳的建模效果3)双向逐步:这类事向前向后的结合,在逐步增加变量时候,也在清洗在模型的自变量,寻找最少自变量个数,最佳建模效果。一般来说,双向逐步效率最高,最推荐。由于逐步回归法在统计软件中很容易实现,所以现在大量的中文学术论文采用了逐步回归的方法开展自变量的筛选。但是,医学Top期刊,内科学年鉴(Annals of Internal Medicine)的统计分析指南却指出: Authors should avoid stepwise methods of model building, except for the narrow application of hypothesis generation for subsequent studies. Stepwise methods include forward, backward, or combined procedures for the inclusion and exclusion of variables in a statistical model based on predetermined P value criteria. 这段英文翻译过来就是应该避免使用逐步回归方法进行多因素回归。这又是咋回事呢?大家在使用的逐步回归法不建议用了?!我觉得倒也不是说逐步回归法就不好用,而是应该有选择的用。一、为什么不太推荐逐步回归法?回归分析在医学中扮演着两大类的作用,一个是探讨影响因素,另外一个是预测与分类。我认为,如果回归用于构建预测模型,那么逐步回归法仍然是一种好方法。如果是探讨影响因素,无论是控制混杂,还是探讨多影响因素,我不建议直接上马逐步回归方法。最大的原因是,逐步回归方法是一种没有任何专业知识指导的数据驱动自变量筛选方法。通俗来说,它就是胡搞,为建模而建模。实际上我们建一个模型来探讨影响因素时吗,(1)所建立的回归模型成功构建,不能因为自变量过多而导致失败;(2)所建立回归模型不需要所有自变量都有统计学意义,因为这不是预测模型;(3)所建立回归模型中,关键指标无论是否具有统计学意义,都应该在模型中;(4)所建立的模型,应该认真中介变量带来的影响,可能要排除中介变量。;(5)所建模型尽量避免多重共线性;在上述5点中,(1)、(5)是逐步回归法最大的存在理由,但是其它几点起不到作用。案例分析 若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平,探讨随访血糖的影响因素,其中,基线胰岛素是我们想要分析的关键自变量。