内生性与工具变量,你不可不知的9个问题汇总
来源:网络
计量经济学中,线性回归模型的本意是给定x值,然后预测(或估计)y的条件均值。在给定的x值下,y值可能忽高忽低(即y是随机变量),其变化程度也可大可小(即y有方差),但其条件均值是可以通过回归方法来估计的。至于y的条件方差,在只有一个固定的x值下是无法估计的(在重复测量样本下也许可以做到,因为这时有多个固定相同的x值),所以只好简单地假设对于任何给定的x,y的条件方差都是一样的(即同方差假设),此时才可以通过多个样本点来估计一个相同的方差,然后进行各种t检验、f检验。
通俗一点说,回归的思想就是先抓住x,然后观察y将如何变化。比如说居民收入r与消费c,先抓住1000元收入水平的消费群体,然后看他们将如何消费,c|1000是条件随机变量(当然,实际数据中1000元水平的观测可能只有一个);然后再抓住1500元收入水平的群体,再看他们将如何消费,依次类推。一般来说,随着收入增长,消费的条件均值将同步增长,此时回归关系成立。
但是,令我们苦恼的是,实际中很有可能是“无法抓住x”的,因为x在变,y也在变,然后y的变化又影响到了x,所以我们观测到的结果,很有可能是x与y相互影响的结果;通俗一点说,就是x已经与y纠缠到了一起,你哪里还能辨清哪是x,哪是y?比如说收入与消费,可以说赚得多,花得也多,但钱花完了,又得想办法去多赚点,这时收入与消费是相互影响的,你是无法'按住x'的。因为等你'按住x'了,去观察y,y的变动回过头来又造成了x的变化,你转身一看,坏了,x已经不是原来那个x了,它已经变了!这个相互影响的过程,你是观测不到的,你观测到的只是结果。所以在你观测到实际数据的时候,x已经不是本来的x,x中混杂了y的信息。既然x已经不是本来意义上的x,你又如何去估计它对Y的真实影响?这就是我们通常所说的联立性偏误(simultaneity bias),即x与y是同时变动的。这种情况下,x与回归模型的误差项表现为相关,违背了经典OLS(ordinary least square,普通最小二乘法)的假设。此时,你应该可以知道,你很难估计x对y的真实影响,即在经典回归假设下,估计出的回归系数是有偏的。这是造成内生性 Endogeneity 的情况之一。
还有可能是x在变,其他影响y的因素也在变(因为除了x影响y外,也有其他因素在影响y),但这些因素你没有纳入模型的解释变量中,此时x与回归模型的误差项也表现为相关(因为遗漏因素的影响归入了误差项)。此时,你如何能辨清y的变化,有多少是x造成的,又有多少是“其他因素”造成的?于是估计再次陷入僵局。这种情况的产生,需要两个条件:一是x变化,其他因素也同时变化(x与其他因素相关),二是其他因素要能影响y(即其他因素要与y相关),这是造成内生性的情况之二。
01
内生性的例子
工资和受教育水平同时受到能力的影响,然而,即使我们可以通过其他相关的测试得出能力的代理变量,能力是不可直接观测的变量,这就带来了遗漏变量的内生性问题。又比如,在联立方程中,消费和收入同时受一些宏观因素的影响,这就带来了联立方程偏误。我们可以通过工具变量的方法来解决内生性的问题。
02
内生性的原因
内生性的根源:互为因果、联立性、遗漏变量、测量误差
总的说来,内生性主要由以下原因造成:
1. 遗漏变量:如果遗漏的变量与其他解释变量不相关,一般不会造成问题。否则,就会造成解释变量与残差项相关,从而引起内生性问题。
2. 解释变量与被解释变量相互影响
3. 度量误差 (measurement error):由于关键变量的度量上存在误差,使其与真实值之间存在偏差,这种偏差可能会成为回归误差(regression error)的一部分,从而导致内生性问题。
03
内生性的定义
解释变量与error term相关。例子:y is earnings, x is years of schooling,u is error term (including ability), z is proximity to college。 外生: 解释变量x和error term u独立影响被解释变量y。
内生: error u 影响解释变量x,因而间接影响被解释变量y。
工具变量:工具变量z与x相关,但与error term u无关。即z能且只能通过x影响y。
04
05
06
07
阶条件:工具变量的数量至少要与内生变量一样多。 秩条件:为了求逆,矩阵z'x必须是满秩的。
恰好识别的情况:
Under-identified model
当内生变量的数量多于工具变量的个数时,我们称这一工具变量模型是Under-identified的。 此模型有无数解,所以没有统一的估计值存在
过度识别:
The twostage least squares (2SLS) (当残差项服从独立同分布的时候是最好的估计方法。)
GMM(广义矩估计:The generalized method of moments) 当w=(z'z)^(-1)时,这与2SLS估计一样。通常有:
08
内生性的检验:
1、Hausman test
2、Durbin-Wu-Hausman test
弱工具变量检验
当一个内生变量和一个工具变量时,这两个变量的弱相关性可以说明这是一个弱工具变量。
弱工具变量的后果
09
经管学苑