IV-工具变量法:第一阶段系数符号确定时的小样本无偏估计
🍎 连享会主页:lianxh.cn
New!
lianxh
命令发布了: GIF 动图介绍
随时搜索 Stata 推文、教程、手册、论坛,安装命令如下:
. ssc install lianxh
连享会 · 最受欢迎的课
🍓 2021 Stata 寒假班
⌚ 2021 年 1.25-2.4🌲 主讲:连玉君 (中山大学);江艇 (中国人民大学)
👉 课程主页:https://gitee.com/arlionn/PX
作者:甘徐沁 (厦门大学)
E-Mail: 1072759894@qq.com
目录
1. 引言
2. 理论基础
3. Stata 应用
4. 总结
5. 参考文献
6. 相关推文
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。
Source: Andrews, Isaiah, and Timothy B. Armstrong. 'Unbiased instrumental variables estimation under known first‐stage sign.' Quantitative Economics 8, no. 2 (2017): 479-503. -Link-,-MS-cite-
1. 引言
工具变量是经济学实证研究中应用最为广泛的几种方法之一。关于 IV,连享会此前已发布了赌片提问社区有过以下一些资料,感兴趣的小伙伴们可以参考:
'IV:可以用内生变量的滞后项做工具变量吗?' 'Stata: 工具变量法 (IV) 也不难呀!' 'IV-估计:工具变量不外生时也可以用!' '工具变量-IV:排他性约束及经典文献解读'
传统工具变量的统计推断基于大样本理论,即在给定工具变量和内生变量强相关关系情况下,样本趋于无穷大时,2SLS 估计量是一致估计。而在弱工具变量情况下过度识别的模型系数偏误很大。尽管过去有不少学者尝试使用各种方法来解决这种偏误,但是这些改进的估计量,在有限样本或弱工具情况下仍然是有偏的。Hirano and Porter (2015) 证明了在第一阶段系数空间无限情况下,不可能得到任何关于线性 IV 模型的均值/中位数/分位数的无偏估计量。
本文的介绍基于 Andrews and Armstrong (2017) ,两位学者构建了一个理论。在此理论中,如果第一阶段系数的符号是给定的,那么可以在满足缩减式 (Reduced-form) 误差满足正态分布时,估计出有限样本情况下的无偏工具变量估计量。当缩减式的误差项分布已知,可以在即使弱工具变量 (Weak IV) 的情况下得到渐进无偏估计量。
工具变量有两个关键性假设——相关性和外生性。其中外生性无法严格证明,但对于相关性,许多研究者对于其方向,即第一阶段的回归系数符号具有很强的先验信念。比如 Angrist and Krueger (1991) 著名的出生季度作为教育年限的工具变量,在他们的设定中,更早季度出生的个体可以更早离开学校,因此其受教育年限更低。工具变量的第一阶段符号为正(教育年限对出生季度回归)。在实证研究中,许多学者对于第一阶段工具对内生变量的作用机制有很清晰的经济理论,以致于某种程度上,我们可以将第一阶段的符号认为是给定的。
2. 理论基础
本文中我们简单梳理 Andrews and Armstrong (2017) 论文的第二部分——在仅有一个工具时(恰好识别),若已知第一阶段的系数符号,并且误差项为正态分布方差已知,可构建有限样本无偏估计量。
我们使用 表示工具向量, 表示内生变量向量(注意此时X仅有1列,因为仅有1个工具并且恰好识别), 表示结果变量向量。传统的线性 IV 模型可以写作:
我们假设 固定,并且误差 是均值为0,方差已知的联合正态分布。若方程中还有 作为外生变量,我们定义 分别作为其投影在外生变量上后的残差。定义缩减式和第一阶段回归的系数分别为 ,则有:
其中
假设 是正定的。我们仅仅关注 的估计。假设 的符号已知,并且假设 的参数空间为 :
注意这里假设为正,不失一般性,因为我们可以重定义 。
在恰好识别的情况下, 是标量,表示为:
估计 的问题因此转化为估计:
可以看出,传统的工具变量 是上式的一个样本 analog。众所周知,这个估计值没有整数矩。这个性质反映的实际上是两个随机变量期望的比例并不一定等于其比例的期望。
但是我们仍然可以寻找一个推导无偏估计量的方法。假定寻找一个估计量 是 的无偏估计,并且其仅仅通过 和数据产生联系。我们可以定义:
则有 ,并且 与 独立。因此 , 便是 的一个无偏估计量。因此我们将 的估计转化为了对于正态分布均值倒数的无偏估计问题。
根据 Voinov and Nikulin (1993) 的推导,在假设 的符号已知时,可以推导出其无偏估计量。引理 2.1. :
LEMMA 2.1. Define
For all 0, E_{\pi}\left[\hat{\tau}\left(\xi_{2}, \sigma_{2}^{2}\right)\right]=\frac{1}{\pi}' data-formula-type='inline-equation'>.
既然得到了 的无偏估计,那么我们可以便可以推导出 的无偏估计了:
THEOREM 2.1. Define
估计量 是 的无偏估计只要满足0 .' data-formula-type='inline-equation'>
注意到,传统的工具变量可以表示为:
我们的 和传统的 IV 的不同之处在于其将 替换为了 的无偏估计量 。
当工具变量的相关性较强时, 和 2SLS 估计量是渐进等价的。关于此估计量的更多统计性质,以及当有多个工具时的理论推导,可以参见 Andrews and Armstrong (2017) 的原文。
需要注意的是 ,并不是所有的工具变量第一阶段的符号都是有意义的。比如,工具变量是组别变量,并没有实际意义上的顺序之分,这种情况下我们不能使用 Andrews and Armstrong (2017) 提出的理论。
3. Stata 应用
下面我们介绍基于此理论的 Stata 应用,外部命令 aaniv
。
该命令的语法为(注意这里作者提供的 help
文件中略微有误,本文已更正):
aaniv [varlist1] (varlist2=varlist_iv) [if] [in] [, deltase level(#)]
varlist1
:外生变量varlist2
:内生变量。在截至本文写作日期的该命令最新版本1.0.2中,仅支持1个。varlsit_iv
:工具变量。在截至本文写作日期的该命令最新版本1.0.2中,仅支持1个。
Options 如下:
deltase
:使用一阶 delta method 来近似 Andrews & Armstrong (2017) 估计量的(非有限)方差。默认使用 2SLS 标准误。level
:估计量的置信区间。
下面我们先来做一个简单的数值模拟,看看在小样本情况下 的表现结果。本例中我们设定样本数为10,并进行100次模拟,分别计算两个估计量。
// Numerical simulationclear allset cformat %4.3f //回归结果中系数的显示格式set pformat %4.3f //回归结果中 p 值的显示格式 set sformat %4.2f //回归结果中 se值的显示格式
local ivreg2_b local aaniv_b
local iter=100 //set # of iterationslocal finite_sample=10 //set # of observations, finite sample
local seed=55
forvalues i=1/`iter' {
di 'iter round: `i''clearqui set obs `finite_sample'
set seed `seed'local seed=`seed'+13
foreach var in u z v w {gen `var' = rnormal()}gen x = 0.6*z + 0.33*u + vgen y1 = 3.0*x + 0*z + 0.5*w + u
qui {ivreg2 y1 w (x=z), noidlocal this_b=_b[x]local ivreg2_b '`ivreg2_b' `this_b''di '`ivreg2_b''aaniv y1 w (x=z)local this_b=_b[x]local aaniv_b '`aaniv_b' `this_b''di '`aaniv_b''}}
clear set obs `iter'gen ivreg2_b=.gen aaniv_b=.qui {local n=1foreach num of local ivreg2_b {replace ivreg2_b=`num' in `n'local ++n}local n=1foreach num of local aaniv_b {replace aaniv_b=`num' in `n'local ++n}}
sum ivreg2_b aaniv_b/*. sum ivreg2_b aaniv_b
Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------- ivreg2_b | 100 3.215524 1.998424 -2.275138 14.56505 aaniv_b | 100 2.990869 .6649156 -.4930134 4.481259*/
可以看到, aaniv
的估计系数均值更接近真实值(这反映了其在有限样本下无偏的特点)。并且相比于 2SLS 的估计系数,其分布也更紧凑地聚拢在均值附近。我们画出其核密度分布来确认。
qui {
sum ivreg2_b,meanonly
local mean_ivreg2_b=r(mean)
sum aaniv_b,meanonly
local mean_aaniv_b=r(mean)
}
// plot density for two coefficients
twoway (kdensity ivreg2_b) (kdensity aaniv_b), xline(3) xlabel(0(1)10)
graph export 'kdensity_ivreg2_aaniv.png', replace
接下去,我们使用此命令来估计 Card (1995) 中的教育收益率,同样比较 的结果。
// Example provided by author of the command. use http://fmwww.bc.edu/ec-p/data/wooldridge/card, clear. local x 'exper* smsa* south mar black reg662-reg669'. ivreg2 lw `x' (educ=nearc4), noid
IV (2SLS) estimation--------------------
Estimates efficient for homoskedasticity onlyStatistics consistent for homoskedasticity only
Number of obs = 3003 F( 16, 2986) = 58.17 Prob > F = 0.0000Total (centered) SS = 590.9611167 Centered R2 = 0.2798Total (uncentered) SS = 118352.1588 Uncentered R2 = 0.9964Residual SS = 425.6151358 Root MSE = .3765
------------------------------------------------------------------------------ lwage | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- educ | 0.119 0.056 2.13 0.033 0.009 0.230 exper | 0.094 0.025 3.69 0.000 0.044 0.143 expersq | -0.002 0.000 -6.01 0.000 -0.003 -0.001 smsa | 0.125 0.032 3.86 0.000 0.062 0.189 smsa66 | 0.021 0.021 1.01 0.314 -0.020 0.062 south | -0.147 0.026 -5.56 0.000 -0.199 -0.095 married | -0.030 0.006 -5.46 0.000 -0.041 -0.019 black | -0.137 0.051 -2.67 0.008 -0.238 -0.036 reg662 | 0.091 0.037 2.48 0.013 0.019 0.163 reg663 | 0.136 0.036 3.78 0.000 0.066 0.207 reg664 | 0.037 0.042 0.88 0.379 -0.046 0.120 reg665 | 0.138 0.046 2.98 0.003 0.047 0.229 reg666 | 0.147 0.052 2.83 0.005 0.045 0.248 reg667 | 0.117 0.049 2.38 0.017 0.021 0.213 reg668 | -0.090 0.058 -1.56 0.120 -0.202 0.023 reg669 | 0.102 0.041 2.50 0.012 0.022 0.183 _cons | 3.990 0.963 4.14 0.000 2.103 5.878------------------------------------------------------------------------------Sargan statistic (overidentification test of all instruments): 0.000 (equation exactly identified)------------------------------------------------------------------------------Instrumented: educIncluded instruments: exper expersq smsa smsa66 south married black reg662 reg663 reg664 reg665 reg666 reg667 reg668 reg669Excluded instruments: nearc4------------------------------------------------------------------------------
. est sto iv2sls. aaniv lwage `x' (educ=nearc4)
------------------------------------------------------------------------------ lwage | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+---------------------------------------------------------------- educ | 0.116 0.056 2.07 0.039 0.006 0.226------------------------------------------------------------------------------
. est sto aaniv
. est tab iv2sls aaniv, t keep(educ)
---------------------------------------- Variable | iv2sls aaniv -------------+-------------------------- educ | .11948644 .11624333 | 2.13 2.07 ---------------------------------------- legend: b/t
可以看到,ivreg2
和 aaniv
的系数很接近,这是因为在此例中可以拒绝弱工具变量假设,以及样本容量较大,可以使用大样本推断理论。此时 2SLS 估计量和 渐进等价。
4. 总结
传统工具变量的统计推断基于大样本理论,但在小样本或者弱工具变量情况下,往往传统的 2SLS 估计值是有偏的。基于Andrews and Armstrong (2017) 的理论以及其 Stata 应用 aaniv
,如果第一阶段系数的符号可以确定,那么可以在满足缩减式 (Reduced-form) 误差满足正态分布时,估计出有限样本情况下的无偏工具变量估计量。尽管本理论目前尚为成熟,但如果担心自己的样本过小,又想用工具变量解决内生性,那么可以尝鲜本方法。