实证分析中多重共线性问题
在实证分析中,我们经常会遇到多重共线性问题,尤其是当多元回归分析模型引入一些极其相关的变量时,这种多重共线性问题更会容易会出现。
然而,多重共线性问题的出现,其所产生的较为严重的后果在于引致你所研究的结论产生偏误,这就需要大家在论文写作中极为关注和重视的地方。
那么,在多元回归分析中,我们该如何去判断自己所构建的模型会存在多重共线性问题呢?如果存在多重共线性问题,我们的处理解决方案是什么呢?
1、如何去发现问题?
一般而言,在实证分析过程中,我们通常通过两种方法去观察模型是否存在多重共线性问题,如下:
(1)经验判断
经验是实证分析研究中的宝贵财富,很多审稿专家经验丰富,在审稿过程中很了解变量的设计构成、变量之间的内涵及其对模型结论的影响和意义。譬如,在宏中观主题研究中,变量之间相互影响可能性较大,很多因素变量的度量存在内涵重叠的问题。
如地区的人均GDP与地区对外开放程度两个变量间,这两者都能很好地展示地区的经济发达程度,人均GDP水平越高,地区发展程度越高,此时这也意味着地区对外开放程度越大。
相反来讲,地区对外开放程度越高,往往预示着地区经济越发达,此时人均GDP水平也越高。
显然,这种经验上的直觉会告诉我们,这会不会存在潜在的多重共线性问题?当然,这至少会引起审稿专家的质疑。
此外,更为常见的是,实证分析中的调节变量产生的交叉项,也是引起多重共线性问题的关键源头,这主要是指交叉项与各子变量间存在多重共线性问题,需要大家引起注意。
(2)相关性分析
这种方法指导我们,根据模型自变量与控制变量、控制变量之间的相关性系数的大小来判断。一般而言,相关性系数越小,模型中潜在的多重共线性问题会较弱。
通常来讲,相关性系数处于0~0.5之间,是可以接受的,这意味着模型中存在较为严重的多重共线性问题的可能性较小;相关性系数处于0.5~1之间,是难以接受的,这意味着模型中存在较为严重的多重共线性问题的可能性较大,但也不能完全确认,需要膨胀因子法(VIF)予以确认,这也要求在后续的实证分析过程中予以重视和解决。
其中,变量间的相关性分析的命令代码如:
方法一:pwcorr Y X1 X2 X3 X4 , sig star(.05)
方法二:asdoc corr Y X1 X2 X3 X4
(3)膨胀因子分析法(VIF)
当然,判断多重共线性问题的最为有效方法是膨胀因子分析法(VIF),这种方法是通过识别模型各变量的膨胀因子大小来予以判断。
使用VIF进行检验的方法主要为,对某一因子和其余因子进行回归,计算VIF,剔除因子中VIF高的因子,保留VIF较低的因子,以此类推,直到得到一个相关性较低的因子组合来增强模型的解释能力。
其中,模型变量膨胀因子分析法的命令代码如:
步骤1: quietly reg X1 X2 X3 X4
步骤2: estat VIF
通过上述两步命令就可以得到模型各变量的膨胀因子。
一般以容忍度、膨胀因子(VIF,容忍度的倒数)作为共线性诊断指标。一般来说,容忍度的值介于复0和1之间,如值太小,说明这个自变量与其它自变量间存在共线制性问题;VIF值越大,则共线性问题越明显,一般以小于10为判断依据。
2、知道问题后,该如何去解决问题?
(1)逐步回归法
逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。
这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
在spss中,逐步回归法是比较方便的一种方法,经常用到的一个回归方法是stepwise,也就是逐步回归,它指的是每次只纳入或者移除一个变量进入模型, 这个方法虽然好用,但是最后可能出现几个模型都比较合适,你就要比较这几个模型的优劣。
在stata中,逐步回归法的基本命令是:stepwise。
(2)交叉项容易引起多重共线性问题,采用中心化处理方案
在日常的论文写作中,为了提高文章的内容质量和充实性,我们通常会运用到调节变量及其形成的交叉项,这也是引致多重共线性问题的原因之一。
当遇到这方面源头所引致的多重共线性问题时,我们最为常见的解决方案是“中心化”。
其中,中心化的处理命令代码如下: