Poisson回归,研究离散事件的重要回归方法
第二篇
Poisson分布,中文一般翻译为泊松分布,通俗来说,指的是在一个极大人群、空间和时间范围内,观察对象某种现象发生数的分布。
比如,2020年浙江省某县区3000名新生儿中,有20例先神经管畸形患者。这是极大人群、较小事件发生数。那么浙江省所有县区,先天性神经管畸形的发生数为Poisson分布。
又比如,早产儿出生后2年内,感冒的次数,也可以认为是Poisson分布。无菌实验室中,单位空气中细菌的含量也是泊松分布。
泊松分布是偏态分布,如果开展先神经管畸形的影响因素研究,一般不推荐直接开展线性回归分析,而推荐Poisson回归:
值得注意的是,Poisson回归在医学研究中的应用分为两大类:一类是当结局为离散定量数据,就如上文所举的案例。另外一类,则在观察性研究更常见,但是被忽视的方法,即结局是二分类的Poisson回归分析。
这篇文章先介绍第一种: 对于离散事件,Poisson如何处理呢?
案例分析
30 例非气质性心脏病且仅有胸闷症状就诊者 24 小时早搏数 Y 的影响因素研究。影响因素包括,是否吸烟(1-吸烟、0 -不吸烟);X2,是否喝咖啡(1-喝、0 -不喝);X3,性别(1 -男、0 -女)
24 小时早搏数 Y 的可以认为是Poisson分布,对于这样的回归分析,程序上十分简单。
对于SAS,可以 调用genmod 函数
proc genmod data = A ;
model Y = X1 - X3 /link = log dist = poisson;run;
对于R语言,可以调用glm模型
glm(Y ~ X1 +X2+ X3 , family = poisson, data = A)
对于SPSS软件,调用广义线性模型
结果如下
最终,Poisson的模型如下:
ln[λ ( X)] = 1.5066 + 0.4162X1 + 0.4012X2 +0.2546X3
因 X1、X2 和 X3 前的系数分别为 RR=exp(0. 41) = 1. 51、RR=exp(0. 40) = 1. 49 和RR= exp(0. 25) = 1.29,又因为 X1 代表“是否吸烟(1 -吸烟、0 - 不吸烟)”、X2 代表“是否喝咖啡(1- - 喝、0 -不 喝)”、X3 代 表“性 别 ( 1-男、0-女)”,说明吸烟者出现早搏的概率是不吸烟者的1. 51倍、喝咖啡者出现早搏的概率是不喝咖啡者的 1.49 倍,而男性受试者出现早搏的概率是女性受试者的 1.29 倍。
注意事项
Poisson回归分析要求均数和方差相等,实际数据往往并不符合这一假定,方差有时会大于均数,就是所谓的过离散(Overdispersion),这将导致模型参数估计值的标准误偏小,参数wald检验的假阳性率增加。这种情况的出现可能是由于观测之间不独立性导致的。而在医学研究中,很多事件的发生是非独立性的。比如疾病的聚集性或家族性,或传染性疾病。对于事件发生数的过离散情况,负二项分布是有效解决的一种方法。
-本讲完毕-