SAS系列35:Logistic回归模型理论
上一期介绍了多元线性回归分析的SAS实现,本打算介绍多元线性相关分析,有读者留言期待Logistic回归,那我们今天就开始介绍Logistic回归的数学模型、基本原理、分析步骤。
一、Logistic回归模型
分析例题:研究血红素(HAEM)与4种微量元素钙(CA)、铁(FE)、铜(CU)、锌(ZN)的关系。
上两期介绍的多元线性回归模型在定量数据分析中是最常用的多因素统计分析方法,但是当因变量是分类变量时,多元线性回归就不适用了。我们先来回顾下多元线性回归模型:
式11-2中,因变量y是一个定量观察值。某事件发生的概率是不同于y值,概率的取值只能是从0到1。如果用线性回归模型来估计概率时,会出现估计值小于0或大于1的情况,从而对结果的解释带来困难。因此,在分析分类变量时,通常采用的一种统计方法是对数线性模型的一种特殊形式——Logistic回归模型。设某事件在各影响因素X1,X2,…,Xm的作用下发生的概率为P,不发生的概率为1-P,定义:
这叫作P的logistic变换,其中P/(1-P)是发生的概率与不发生概率的比值,logitP是比值的自然对数,式10-2中,只有0<P<1时才有意义。若使式11-2的左端等于ln(P/1-P),则有:
式11-4是logistic线性回归方程,将该方程变换为以P为因变量的logistic曲线回归方程如下:
如果令x=(x1,x2,x3,…,xk)’,b=(b1,b2,b3,…,bk),可以得到以下logistic回归模型:
二、Logistic回归分析的步骤
(1)参数估计
在Logistic回归分析中,回归系数的估计方法通常是最大似然法,最大似然法就是选取使得总体真参数落在样本观察值领域里的概率达到最大的参数值作为真参数的估计值。根据一组实际观察数据估计Logistic回归模型的参数时,通常用最大似然估计建立一个样本似然函数:
式11-7中表示第i例观察对象在暴露条件下阳性结果发生的概率,如果实际出现的是阳性结果,取Yi=1,否则取Yi=0。根据最大似然原理,在一次抽样中获得现有样本的概率应该最大,即似然函数L应该达到最大值。为了简化计算,通常取似然函数的对数形式:
然后应用Newton-Raphson迭代方法使对数似然函数达到极大值,此时参数的取值b1,b2,…,bk即为β1,β2,…,βk的最大似然估计值,同时得到参数估计值的方差-协方差矩阵。
(2)比值比(或相对危险度)估计
Logistic回归模型的回归系数表示自变量Xj改变一个单位时logitP的改变量,它与衡量危险因素作用大小的比值比对应。如某一危险因素两个不同暴露水平Xk=c1和Xk=c0的发生情况,其比值比的自然对数为:
式11-9中P1和P0分别表示当Xj取值为c1和c0时的发病概率,ORj称作多变量调整后的比值比,即扣除其他自变量时危险因素的作用。令Xj=0时表示未暴露,Xj=1时表示暴露,则暴露组与未暴露组的发病风险的比值比为:
当bj=0时,ORj=1,说明变量Xj对结局发生不起作用;当bj>0时,ORj>1,说明Xj是一个危险因素;当bj<0时,ORj<1,说明Xj是一个保护因素。另,ORj值与模型中的常数项b0无关,b0在危险因素分析时可看作无效参数。比值比的估计是Logistic回归用于流行病学研究的优势之一,在得到某变量的回归系数估计值后,即可计算该因素不同水平下比值比的估计值。
2. Logistic回归模型检验参数
回归系数的检验假设如下:
回归系数检验方法有Wald χ2检验和似然比检验。两种方法中较为常用的是Wald χ2检验,当大于样本对应Wald χ2的统计量值的概率小于预设的检验水准(如0.05)时,即可拒绝零假设H0,可认为第j个X变量对结局的影响有统计学意义。一般情况下,Wald χ2检验的结果较保守,当样本量较小时,有时会产生一个较大的标准误,导致Wald χ2统计量的值很小,从而增加第二类错误。这种情况下采用似然比检验更为可靠。当Wald χ2检验与似然比检验结果不一致时,一般以似然比结果更为可靠。
似然比检验是通过比较两个嵌套模型的对数似然值来分析第j个自变量X是否有统计意义。似然比统计量服从χ2分布,其自由度为两个模型自变量个数的差值,如果一个模型有两个自变量,另一个模型有三个自变量,则自由度为1。根据χ2值和相应的自由度便可计算出P值,如果P小于预设的检验水准(如0.05)时,即可认为第j个自变量X对结局的影响有统计学意义。似然比检验既可用于单个自变量的检验,也可用于多个自变量联合作用的检验。通过比较两个模型嵌套模型,便可检验两个模型相差的一个或多个变量是否有统计学意义。
3. Logistic回归模型评价
当构建的Logistic回归模型的预测值与对应的观测值有较好的一致性,则认为该回归模型拟合数据,即“拟合优”,这就是模型的总体检验,或称之为拟合优度检验,其假设如下:
拟合优度检验的方法有Pearson χ2、Deviance、HL统计量、计分检验、AIC/SC、广义确定系数:
(1)Pearson χ2
随着模型的自变量个数的增加,自变量各水平的交叉分类数呈几何级数的增加,若χ2很小,则说明观测频数和预测频数无“显著差别”,模型很好地拟合了数据;反之,若χ2很大,统计检验便有“显著差别”,模型拟合不好。
(2)Deviance
Deviance是通过比较现有模型和饱和模型来说明现有模型的优劣。即饱和模型是包含了所有自变量的模型,其模型估计值与观测值完全相等,实际上这一模型并不可取。但是我们通过现有模型与饱和模型的差别来评估现有模型拟合数据的充分程度。如果Deviance统计量值越大,现有模型与饱和模型的偏差越大,即拟合效果越差。
(3)Hosmer-Lemeshow(HL)拟合优度指标
如果模型中自变量非常多,尤其是纳入连续自变量时,变量组合便会急剧增加,这时Pearson χ2和Deviance就不适合于该模型的检验,可应用HL拟合优度指标进行检验。HL拟合优度指标不管变量组合数有多少,会根据预测概率值大小将数据进行排序,分成大致相同的10个组,第一组包括预测概率最小的那些观测案例,而最后一组包括预测概率最大的那些观测案例。HL拟合优度指标值服从χ2分布,χ2检验的P值大于预设的检验水准,则表示拟合较好,反之拟合不好。
(4)Score检验
Score检验用于检验全部自变量(不包括常数项)对结局的联合作用。
(5)信息测量指标AIC/SC
AIC指标一般不用于单个模型的评价,多用于两个或多个模型拟合优度的比较。在AIC指标的计算过程中考虑了对变量的惩罚,即当模型加入了无意义的自变量,AIC值会提示模型拟合变差,所以我们在建模型时并不是自变量越多越好。SC指标是对AIC指标的一种修正,其意义与AIC相同。AIC与SC的值越小表示模型拟合越好,均可用于嵌套或非嵌套模型的比较。
(6)类确定系数
类确定系数用于评价Logistic回归模型中自变量对结局的总体预报或解释能力,意义同多元线性回归分析。类确定系数与经典R2的定义一致,对于模型参数的最大似然估计可以保证类R2取得最大值;类R2有渐近独立于样本规模的性质。
(7)预测概率与观测值之间的关联
对于Logistic回归模型预测的准确性的另外一种方法是通过观测反应变量和模型预测条件概率间的关联来评价,这种关联可以应用Gamma、Somers’D、Tau-a和c反应,指标值越高,表示预测概率与观测反应变量之间的关联越紧密。这些指标中c和Somers’D在应用于比较Logistic模型时通常较好。
4. Logistic回归模型诊断
Logistic回归模型同多元线性回归模型一样,也要进行模型诊断。
(1)过离散
实际数据中常用过离散现象存在,如果反应概率Pj并不是随机变化,那么Pj的变动将会造成Yj的方差大于其本来应有的方差,形成过离散。过离散会导致Logistic回归系数的标准误偏低,从而影响到Wald χ2值偏高。过离散也会发生在模型中的要素存在某种缺陷,如某些重要解释变量没有纳入模型,某些必要的互动项没有纳入模型,数据中存在特异值等。
(2)空单元
数据结构中最简单、最明显的问题是空单元,即交互表中某些单元的观测频数为0。空单元主要发生于分类变量,在一般情况下,模型中没有太多的变量,尤其是没有将互动项纳入模型之前,很少发生空单元的现象。可以通过大样本来消除空单元带来的建模问题;在小样本时,可以通过合并变量中的若干类型来消灭单元,或者在变量为次序量度且有较多等级时,假设它们为连续变量;也可能应用精确Logistic回归分析。
(3)完全分离
通常与样本含量、事件发生例数、模型中自变量个数及其取值范围有关。当样本量较小且模型中自变量较多时,完全分离发生的机会将大大增加。如果出现估计系数较大,尤其是系数估计标准误差非常大时,应分析是否有完全分离发生,并根据发生原因解决。
(4)多重共线性
同多元线性回归的多重共线性,可用容忍度(tol)、方差膨胀因子(vif)和最大条件指数(f)进行诊断。
(5)离群值和强影响点
在Logistic回归分析中,若某一观测的实际结果是一种类型,而模型估计另一类型的发生率很高,便认为该观测结果是离群值。通常用于检查离群值的主要指标有Pearson残差值、Deviance残差以及学生化残差。Pearson残差值的绝对值大于2时,提示该相应观测可能拟合较差,常诊断为离群值;大样本时,Deviance残差近似服从正态分布,当绝对值大于2时,可能是离群值;如果学生化残差绝对值大于2,可认为是一个可疑离群值,当绝对值大于等3时,则基本认定是一个离群值。
如果一个观测的自变量取值异常,远离其他样品值的主体,即为杠杆点。对回归估计影响特别大的观测,称之为强影响点。通常一个离群的杠杆点会对回归估计有很大的影响,成为强影响点。用于检查杠杆点和强影响点的统计量有杠杆值(Leverage)、DFBETA和Cook’D。杠杆值hi用于测量第i个观测与其他观测相分离的程度,聚会范围是[0,1],若模型中有k个自变量,所有杠杆值的合计等于k+1,平均值为(m+1)/n,当hi>2(m+1)/n时,第i个观测可视为杠杆点。DFBETA是指第i个观测被删除后回归系数的变化,如果DFBETA标准化值的绝对值大于1.0,则可认为相应的观测可能是强影响点。Cook’D是Pearson残差与杠杆值的合成指标,当第i个观测的Cook’D远大于其他观测的Cook’D时,则提示该观测可能既是离群点,又是高杠杆点,因此很可能是一个强影响点。
整理不易,欢迎点亮再看哦!
参考文献:
[1] 高惠璇. SAS系统SAS/STAT软件使用手册[M]. 北京:中国统计出版社, 1997.
[2] 孙振球, 徐勇勇. 医学统计学[M].北京:人民卫生出版社, 2014.
[3] 张家放. 医用多元统计方法[M]. 武汉:华中科技大学出版社, 2002.
[4] 武松. SPSS实战与统计思维[M]. 北京:清华大学出版社, 2017.
[5]冯国双, 刘德平. 医学研究中的logistic回归分析及SAS实现. 北京: 北京大学医学出版社,2011.
SAS系列推文
----------------------------------------------
----------------------------------------------
精鼎特邀