分位数回归
*2.4 分位数回归估计
分位数回归估计方法不同于经典模型估计方法,它可以估计出不同分位点下模型参数的估计,而不同分位点下模型参数的估计是不同的。本节首先简要介绍分位数回归,并与经典线性回归进行比较;然后,着重介绍分位数回归估计方法,以及分位数回归模型的检验;最后,介绍一个分位数回归的应用实例。
2.4.1分位数回归的提出
分位数回归(Quantile Regression,QR)由Koenker Roger和Bassett Gilber5t Jr于1978年提出,与经典回归模型显著不同。经典线性回归模型
总体回归函数为
建立了被解释变量Y的条件均值与解释变量X之间的关系,在线性模型中,参数β揭示了X的变化对Y的条件均值的直接影响。因此也将经典回归模型称为均值回归。而分位数回归则利用解释变量X和被解释变量Y的条件分位数进行建模,试图揭示解释变量对被解释变量分布的位置、刻度和形状的影响。
由于分位数回归不同于经典回归模型的特征,使得它具有广泛的应用,尤其是对于一些非常关注尾部特征的应用研究。例如,劳动经济学中关于工资结构的研究,金融经济学中关于股票收益不对称性的研究和关于风险测度的研究,医学中关于生存函数的研究,等等。
为了说明分位数回归的实用性,这里介绍两个分位数回归实证分析的例子。Koenker和Machado(1999)分析了1965~1975以及1975~1985两段时间内世界主要国家的经济增长情况。模型选取了13个影响经济增长的解释变量,通过分位数回归得出结论:对于起初的单位资本产出这一解释变量来说,它的全部回归分位系数基本保持不变,这就意味着对于经济发展迅速与缓慢的国家而言,起初的单位资本产出对于经济增长的影响基本相同;但是教育支出占GDP的比重以及公共消费占GDP的比重这两个解释变量对于经济发展缓慢的国家影响更加强烈。Chen(2004)使用分位数回归方法深入研究了美国8250名男性的BMI(身体质量指数,一种广泛用于测量偏胖还是偏瘦的指标)情况,并得出结论:在2~20岁这一快速成长期中,BMI非常迅速的增加;在中年期间其值保持比较稳定;60岁以后,BMI的值开始减少。
分位数回归估计作为一种模型估计方法,与经典模型的最小二乘估计相比较,也有许多优点。如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最小二乘估计为最佳线性无偏估计;如果随机扰动项进一步服从正态分布,那么回归系数的最小二乘或极大似然估计为最小方差无偏估计。但是在实际的经济生活中,这种假设常常不被满足,例如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性质,且稳健性非常差。最小二乘估计假定解释变量X只能影响被解释变量Y的条件分布的均值位置,不能影响其分布的刻度或形状的任何其他方面。相比普通最小二乘估计,分位数回归估计更能精确地描述解释变量X对于被解释变量Y的变化范围以及条件分布形状的影响。分位数回归估计能够捕捉分布的尾部特征,当解释变量对不同部分的被解释变量的分布产生不同的影响时.例如出现左偏或右偏的情况时,它能更加全面的刻画分布的特征,从而得到全面的分析。而且其分位数回归系数估计比OLS回归系数估计更稳健。普通最小二乘估计与分位数回归估计的异同比较见表2.4.1。
2.4.2分位数回归及其估计
1、分位数回归原理
2、分位数回归估计方法
分位数回归估计方法,即求得(2.4.7)参数估计量的方法有两类:一类是直接优化方法,例如单纯形法、内点法等;一类是参数化方法,例如结合MCMC(Markov Chain Monte Carlo)的贝叶斯估计方法。常用的计量经济和统计软件都可以实现对分位数回归模型的估计和假设检验,如stata、sas、r、eviews等。这里不介绍这些估计方法的具体理论与步骤,有兴趣的读者可以参考专门的文献。
3、分位数回归的扩展
如果被解释变量的条件密度非同质,可以采用加权的方法提高分位数回归估计的效率,权重与某概率水平下的局部样本密度成比例。加权分位数回归估计为:
2.4.3分位数回归的假设检验
分位数回归估计的检验包括两部分:一是与均值回归类似的检验,例如拟合优度检验、约束回归检验等;一是分位数回归估计特殊要求的检验,例如斜率相等检验和斜率对称性检验等。
1、拟合优度检验
类似于均值回归OLS估计采用残差平方和(RSS)和总体平方和(TSS)构造拟合优度检验统计量,分位数回归估计拟合优度检验统计量为:
2、约束回归检验
类似于均值回归OLS估计采用无约束回归残差平方和(RSSu)和有约束回归残差平方和(RSSR)构造约束回归检验统计量,分位数回归约束回归检验似然比统计量,采用无约束和有约束情况下最小化θ分位数回归的目标函数值
和
构造。表示为:
3、斜率相等检验
分位数回归估计的一个重要的检验是斜率相等检验,即检验对于不同的分位点,估计得到的结构参数(在线性模型中即为斜率)是否相等。原假设被设定为:
如果接受该假设,说明每个斜率对于不同分位点具有不变性,此时,应该采用普通最小二乘估计,而不必采用分位数回归估计,因为每个斜率的最小二乘估计等于不同分位点分位数回归的结果。如果拒绝该假设,说明模型应该采用分位数回归估计,以反映每个斜率在不同分位点的不同值。
斜率相等检验可以通过约束回归检验实现。原假设相当于对分位数回归估计施加了(P-1)(K-1)个约束(斜率中不包括常数项)。应用软件中给出了一些相应的检验统计量,例如,EVIEWS6.0中的Wald统计量可以实现该约束检验。
4、斜率对称性检验
分位数回归估计的另一个重要的检验是斜率对称性检验,即检验对于给定的X,Y的分布是否是对称的。原假设被设定为:
如果接受斜率相等性假设就不必进行斜率对称性检验,因为斜率既然对于不同分位点具有不变性,必然斜率具有对称性。如果拒绝斜率相等性假设,则可以进一步进行斜率对称性检验,若接受原假设(2.4.13),则认为斜率具有对称性,否则,则认为斜率不具有对称性。
例2.4.1 表2.4.2和2.4.3是软件EVIEWS6.0使用手册中实例的斜率相等性检验结果和斜率对称性检验结果,其中Y为家庭食物消费支出,X为家庭收入。
由表2.4.2可见,Wald统计量为25.22,应该拒绝斜率在tau=0.25、0.5和0.75相等性的假设,即斜率在不同分位点上的值是不同的。进而,进行斜率对称性检验,由表2.4.3可见,Wald统计量为0.53,应该不拒绝斜率在tau=0.25和0.75对称的假设。
下面的例题在陈娟、林龙和叶阿忠(2008)的基础上做了部分改动。主要是通过该例题,进一步说明分位数回归在实际经济分析中的应用价值,作为本节内容的一个补充。
例2.4.2 根据对我国农村居民消费行为的分析,并为了分析政府支出对农村居民消费的影响,建立了如下消费函数模型:
其中Ct代表农村人均消费,Δyt代表农村人均总收入增加值,Δgt代表农村人均政府支出增加值。
选取31个省、直辖市、自治区的相关数据,为了扩大数据量,采用的样本期间为2002-2005年。其中农村人均消费(Ct)是指农村居民人均生活消费支出;农村人均总收入增加值(Δyt)是指当年农村家庭人均纯收入减去上一年农村家庭人均纯收入;农村人均政府支出(gt)采用占农村财政支出绝大部分的农业支出、林业支出和农林水利气象事业费三项之和除以当期人口得到,农村人均政府支出增加值(Δgt)是指当年农村人均政府支出减去上一年农村人均政府支出。所需数据来源于《中国统计年鉴》(2003-2006),中华人民共和国农业部,中国农业年鉴2003,2004,2005合卷。
采用Stata软件研究农村居民消费行为,用加权分位数估计方法分析不同的消费水平下各个变量对消费的影响程度(权重为人口数),同时沿用传统的最大似然估计,并对两种估计方法的估计效果进行比较。具体的有关Stata操作命令如下:
findit sqreg /*安装分位数外部命令包*/
sqreg cons cons1 dy dg, quantiles(.2 .3 .4 .5 .6 .7 .8) reps(50)/*50次采用一般系统的默认*/
set seed 50
bsqreg cons cons1 dy dg,rep(50) q(.5)
Enter键后模型的回归参数整理如下表.
从表2.4.4可以看出,前一期的人均消费和人均总收入额增加值的回归结果较为显著。尤其是消费随着前一期的消费的增加而不断的增加,形象的解释出莫迪利安尼的消费支出假说,即由俭入奢易,由奢入俭难。而收入的增加消费的影响表现出出随着收入的不断增加,是的消费先不断的增加,而后逐渐降低。
根据前面理论知识,一般较为常用而且比较重要的进行分位数回归检验的方法为斜率相等性检验。下面利用Stata对该种检验进行实现,以前一期消费cons1为例进行检验,具体的操作步骤如下:
sqreg cons cons1 dy dg, quantiles(.2 .3 .4 .5 .6 .7 .8) reps(50)/*这里需要再次输入一遍回归*/
test [q20=q30=q40=q50=q60=q70=q80]: cons1 /*斜率相等性检验*/
Enter键后检验结果如下所示:
图2.4.1 斜率相等性检验结果
从上述斜率相等性检验结果可以发现,对于前一期消费的变量,拒绝在不同分位点斜率相等的原假设,即前期消费在不同分位点是不同的,故不应使用最小二乘法进行估计。
为了更加形象的对比不同回归结果,分位数回归还可以通过进行安装外部命令进行绘图进行比较分析,具体的操作是在上述分位数回归的基础之上,在command窗口输入下列命令:
findit grqreg /*安装分位数绘图命令包*/
grqreg, cons ci ols olsci
对两种方法估计的结果绘制如图2.4.1所示,其中图(c)前期农村家庭人均生活消费支出的分位数估计结果的曲线在表示中等消费水平下的分位数tau=0.4到tau=0.6之间,落在最小二乘估计的置信区间内,图(a)农村居民家庭人均纯收入增加值的分位数估计在tau=0.6时落在区间内,这说明从总体上看,对于处于中等消费水平的人群,两种方法的估计结果基本一致。同时,3张小图所显示的分位数估计的曲线的头尾大都落在最小二乘估计的置信区间之外,说明对于低消费群体和高消费群体最小二乘估计无法很好的区分,而分位数数估计则可以进行区别描述。从两种估计的系数值来看,3张小图的曲线大体上是围绕直线上下波动,直线和曲线相交的点大多数处于表示中等消费分位tau=0.4到tau=0.6的区间之间或附近,说明随着消费的增加或减少,各个变量对消费的影响不会过于背离变量对中等消费的影响水平。
具体来看各个分位点下的回归系数,对于农村居民来说人均政府支出增量对人均消费的影响在不同消费量下都是互补关系,增加政府支出能促进农村居民的消费。一个直观的理解是政府支出一般为公共财政支出,而对边远贫穷地区及农村基础设施建设投入较多,这能改善消费环境,促进居民消费。农村家庭人均可支配收入对消费有正向的影响,而且效果显著,系数都在0.2以上,说明在不同的消费量下,居民可支配收入都是影响消费的主要因素之一,因此提高居民收入是刺激消费的重要措施之一。对于农村居民消费,收入增加对消费的影响经历了一个由升到降的过程,在tau=0.4以前为升,之后大体趋势为降,说明农村居民在较低消费水平下收入的增加可以使其消费更多,满足其潜在的效用。前期的消费对当期农村消费有正向的影响,表现为随着tau增加前期消费的影响系数呈现上升的趋势,说明随着消费层次的提高,前期消费对当期消费的促进作用更加明显。
(a) 农村居民家庭人均纯收入增加值
(b)对农村居民的人均政府支出增加值
(c) 前期农村家庭人均生活消费支出
图2.4.1 各个变量在分位数估计和最小二乘估计下的不同结果
注: X轴为分位数的阶数;Y轴为各个变量的系数;带空心点蓝线为分位数估计的系数;带空心点黑线为最小二乘估计的系数;空心点蓝(黑)线上下两条蓝线组成的区域是在显著性水平a=0.05下的置信区间。
讲员:叶阿忠
大家针对文中内容若有问题,可通过发送邮件至:fzushujing@163.com