高估还是低估:遗漏变量偏误的方向判断
作者:秋枫澜
,也就是说,内生变量X的估计值是由其真实值加上某一个值构成。
其中,Y为收入,S为受教育年限,A为个人能力。一般来说,能力(A)是无法
:
在这个简化形式中,可以推导出受教育年限S的系数的估计值为:
把Y的真实模型代入进来得到:
很显然,受教育年限S的系数到底是高估还是低估,便取决于
和
的符号是正还是负。前者为真实模型中个人能力A的回归参数,后者为个人能力和受教育年限的相关系数。
能力正向影响收入,且能力与受教育年限正相关,则简化回归得到的受教育年限的估计值将向上偏误,出现高估; 能力正向影响收入,且能力与受教育年限负相关,则简化回归得到的受教育年限的估计值将向下偏误,出现低估; 能力负向影响收入,且能力与受教育年限正相关,则简化回归得到的受教育年限的估计值将向下偏误,出现低估; 能力负向影响收入,且能力与受教育年限负相关,则简化回归得到的受教育年限的估计值将向下偏误,出现高估。
虽然有四种可能的组合,但在教育回报的实际研究中,情况(1)最符合逻辑,因而遗漏了能力变量会导致教育的估计系数出现高估。此时,不得不寻找能力的代理变量,或者为受教育年限寻找合适的工具变量。
不过,假设实际出现的是教育回报的低估,尽管别人会批评文章的内生性问题,但我们也可以进行合理的辩护:首先,不是没尝试找工具变量,而是为受教育年限寻找到一个好的工具变量实在不容易;其次,尽管因能力变量的遗漏而导致了内生性,但估计结果只是真实值的下限,没有内生性时教育的回报只会变得更高,文章的结论只会变得更强。
赞 (0)