分位数回归[Quantile regression]
转自个人微信公众号【Memo_Cleon】的统计学习笔记:分位数回归。
SPSS26中增加了一个新的分析过程:分位数回归。普通线性回归(Ordinary linear regression,OLS)模型关注的是均值,研究的是在某些解释变量在取值固定的条件下响应变量的期望均值,模型估计方法是最小二乘法,使各个样本残差平方和最小。但是线性回归最基本的假设是残差满足正态分布、随机独立、方差齐同,现实中这些条件常常得不到满足。如果样本数据中存在异常值,线性回归模型估计值可能会存在较大偏差。有时候我们不仅希望研究响应变量的期望均值,而且希望能探索响应变量的全局分布(比如响应变量的某个分位数),这时候就需要分位数回归了。分位数回归应用条件相对更为宽松,可以描述响应变量的全局特征,可以挖掘到更为丰富的信息,另外分位数回归估计采用的是加权的最小绝对离差和(weighted lest absolute deviation,WLAD)法进行估计,通常不受离群点的影响,结果更为稳健。对应残差平方和的最小二乘法,最小离差绝对值和也被称为最小一乘法。分位数(百分位数)与分位数回归
一组数据由小到大排列后,q分位数为m则表示该组数据中有100q%的数据小于m。分位数回归就是把线性回归与分位数的概念相结合。抛开不容易理解的数学公式,通俗一些讲,所谓的q分位数回归,就是希望拟合线下面有含100q%的数据点,比如0.25分位数回归线之下包含了25%的数据点。因此系列分位数回归并不是像线性回归那样拟合一条曲线,而是可以拟合一簇曲线。不同分位数的回归系数不同则说明解释变量对不同水平的响应变量影响不同,我们可以借此获得解释变量对响应变量分位数的变化趋势的影响。
示例:我并没有找到合适的数据,示例采用了《倾向性得分匹配》的数据来演示SPSS的分位数操作过程,为操作方便数据只保留新生儿体重(bweight)、婚否(mmarried)、孕母年龄(mage)、父亲年龄(fage)及孕母是否吸烟(mbsmoke)几个变量。以新生儿体重为因变量,其余几个变量为自变量进行线性回归,获得残差。对残差的直方图、Q-Q图和箱线图图如下:
从直方图上看,数据有些左偏正态性还不错,但剔除异常值后,正态性还是不错的,箱线图也提示样本数据存在较多的离群点。我们用这个数据来演示一下分位数回归的SPSS操作。分位数回归:Analyze>>Regression>>Quantile…
这是一个比较标准的对话框,我们把响应变量bweight放入[目标变量]框,解释变量中的分类变量mmarried、mbsmoke放入[因子]框、连续变量mage、fage放入[协变量]框。
【标准】可以添加需要分析的分位数,常用的分位数有四分位数、十分位数。本例设定分位数包括0.1、0.25、0.5、0.75、0.9。
【模型】本例常规分析,不考虑交互、嵌套等,默认选项。
【显示】选择需要显示的结果。
【保存】和【输出】可以分别选择需要保持的变量和需要输出的数据,本例默认不做选择。
结果与解读
模型质量:显示系列分位数回归的伪R2与平均绝对误差。伪R2是当前模型自变量对因变量变异的解释程度,平均绝对误差的意义类似于最小二乘法回归中的残差平方和。
不同分位数的参数估计:给出了各设定的分位数的解释变量的系数估计值。以0.1分位数为例,对于体重较低的新生儿而言,孕母年龄的越大新生儿体重越重/父亲年龄越大新生儿体重越轻/相比结婚而言未婚生育的新生儿体重更轻/孕母不吸烟比吸烟孕母的希尔生体重更重一些。但结果有没有统计学意义,该表格并未给出,需要进一步查看后面各个分位数的结果。
系列分位数的参数估:以Quantile=0.5为例,结果如下。结果显示,对婚否和吸烟与否对新生儿的0.5分位数的影响具有统计学意义,但孕母年龄和父亲的年龄不具有统计学意义。
SPSS中的系列分位数回归系数的检验给出了各回归系数是否具有统计学意义(原假设为系数为0),但并未直接给出同一个解释变量在系列分位数回归的斜率是否相等(斜率差异是否具有统计学意义)的统计学检验。还好SPSS中提供了参数估计图,个人以为可以利用中该图的点估计和95%CI区间来大体判断斜率是否相等。参数估计图:显示截距和各个解释变量在不同分位数下的参数估计值。黑色的点虚线是各解释变量的分位数回归系数估计值;蓝色范围是置信区间,默认是95%CI,可在【标准】按钮中进行修改;红色实线代表的是普通线性回归的系数估计值;红色虚线代表的是普通线性回归的系数估计值的置信区间。
我们以是否结婚这个解释变量为例,看下参数估计图可以得出的一些信息。
①相比已婚生育的新生儿,未婚生育的新生儿体重更轻一些[系数为负值],具有统计学意义[不论是各个分位数的回归系数还是线性回归系数值均<0(在y=0下面),且95%CI都为包含y=0];②随着新生儿体重的降低,结婚与否对体重的影响越大[从0.8~0.2分位数,婚否的参数估计值绝对值在增大];虽然在不同的分位数水平下婚否对新生儿体重的影响不同,但这种不同之间的差异是否具有统计学意义(斜率是否相等)?我们可以通过95CI%来大体判断,比如0.1分位数与0.5分位数的回归系数的95%CI有重叠的地方,进一步可推断两者差异无统计学意义,因此0.1分位数回归线与0.5分位数回归线从统计上看是平行的;③同样我们也可以查看各分位数回归系数与线性回归系数是否有差异,各分位数回归系数与线性回归系数的95%CI也都有重叠,表明均值回归线也与各分位数回归线平行结合截距的参数估计图你可以判断到底是平行还是重合);④0.5分位数回归系数与均值回归系数基本相同,表明在婚否这个维度上,新生儿体重基本呈对称分布。但吸烟与否这个维度上,0.5分位数回归系数小于均值回归系数,意味着新生儿体重在吸烟这个维度上有些左偏态,而在父亲年龄这个维度上则是0.5分位数回归系数大于均值回归系数说明数据有些右偏态。当然这些都是从绝对数值上来看,从统计学上并没有统计学意义;⑤各分位数回归估计值的95%CI范围较宽,表明系数估计值的标准差较大。总体而言本例采用分位数回归并没有比线性回归给出有统计学意义的结论。解释变量对响应变量的预测结果:在控制了其他解释变量后,当前解释变量对响应变量的预测结果,因子变量用预测表显示,协变量采用预测线来显示。因子以吸烟与否为例,对相对低出生体重的新生儿群体而言,孕母吸烟新生儿的预测体重是2622.838g,当然这个预测是在孕母结婚、孕母年龄26.50岁、父亲年龄27.27岁做出的预测。协变量以孕母年龄为例,随着年龄的增长,各分位数体重的新生儿体重都成增长趋势,各分位数系数大致平行,其中0.1、0.75分位数系数相对较大,具体可参见前面的分位数参数估计。
你可能奇怪,为什么没有连续变量fage(父亲年龄)的系列分位数预测曲线,这是因为在【显示】按钮中默认显示前3个变量的预测图或表,你可以把此处修改为4就可以显示啦!
转自个人微信公众号【Memo_Cleon】的统计学习笔记:分位数回归。
END