内生性与工具变量，你不可不知的9个问题汇总 / 开普饭

来源：网络

计量经济学中，线性回归模型的本意是给定x值，然后预测（或估计）y的条件均值。在给定的x值下，y值可能忽高忽低（即y是随机变量），其变化程度也可大可小（即y有方差），但其条件均值是可以通过回归方法来估计的。至于y的条件方差，在只有一个固定的x值下是无法估计的（在重复测量样本下也许可以做到，因为这时有多个固定相同的x值），所以只好简单地假设对于任何给定的x，y的条件方差都是一样的（即同方差假设），此时才可以通过多个样本点来估计一个相同的方差，然后进行各种t检验、f检验。

通俗一点说，回归的思想就是先抓住x，然后观察y将如何变化。比如说居民收入r与消费c，先抓住1000元收入水平的消费群体，然后看他们将如何消费，c|1000是条件随机变量（当然，实际数据中1000元水平的观测可能只有一个）；然后再抓住1500元收入水平的群体，再看他们将如何消费，依次类推。一般来说，随着收入增长，消费的条件均值将同步增长，此时回归关系成立。

但是，令我们苦恼的是，实际中很有可能是“无法抓住x”的，因为x在变，y也在变，然后y的变化又影响到了x，所以我们观测到的结果，很有可能是x与y相互影响的结果；通俗一点说，就是x已经与y纠缠到了一起，你哪里还能辨清哪是x，哪是y？比如说收入与消费，可以说赚得多，花得也多，但钱花完了，又得想办法去多赚点，这时收入与消费是相互影响的，你是无法'按住x'的。因为等你'按住x'了，去观察y，y的变动回过头来又造成了x的变化，你转身一看，坏了，x已经不是原来那个x了，它已经变了！这个相互影响的过程，你是观测不到的，你观测到的只是结果。所以在你观测到实际数据的时候，x已经不是本来的x，x中混杂了y的信息。既然x已经不是本来意义上的x，你又如何去估计它对Y的真实影响？这就是我们通常所说的联立性偏误（simultaneity bias），即x与y是同时变动的。这种情况下，x与回归模型的误差项表现为相关，违背了经典OLS(ordinary least square,普通最小二乘法)的假设。此时，你应该可以知道，你很难估计x对y的真实影响，即在经典回归假设下，估计出的回归系数是有偏的。这是造成内生性 Endogeneity 的情况之一。

还有可能是x在变，其他影响y的因素也在变（因为除了x影响y外，也有其他因素在影响y），但这些因素你没有纳入模型的解释变量中，此时x与回归模型的误差项也表现为相关（因为遗漏因素的影响归入了误差项）。此时，你如何能辨清y的变化，有多少是x造成的，又有多少是“其他因素”造成的？于是估计再次陷入僵局。这种情况的产生，需要两个条件：一是x变化，其他因素也同时变化（x与其他因素相关），二是其他因素要能影响y（即其他因素要与y相关），这是造成内生性的情况之二。

内生性的例子

工资和受教育水平同时受到能力的影响，然而，即使我们可以通过其他相关的测试得出能力的代理变量，能力是不可直接观测的变量，这就带来了遗漏变量的内生性问题。又比如，在联立方程中，消费和收入同时受一些宏观因素的影响，这就带来了联立方程偏误。我们可以通过工具变量的方法来解决内生性的问题。

内生性的原因

内生性的根源：互为因果、联立性、遗漏变量、测量误差

总的说来，内生性主要由以下原因造成：

1. 遗漏变量：如果遗漏的变量与其他解释变量不相关，一般不会造成问题。否则，就会造成解释变量与残差项相关，从而引起内生性问题。

2. 解释变量与被解释变量相互影响

3. 度量误差（measurement error）：由于关键变量的度量上存在误差，使其与真实值之间存在偏差，这种偏差可能会成为回归误差（regression error）的一部分，从而导致内生性问题。

内生性的定义

解释变量与error term相关。例子：y is earnings, x is years of schooling,u is error term (including ability), z is proximity to college。
外生: 解释变量x和error term u独立影响被解释变量y。