为何在倾向得分匹配之后一般不宜再作回归
高级计量经济学及Stata现场班
陈强 亲授
北京, 2021年5月1-5日
Now or Never!
(详情点击页底“阅读原文”)
在我的计量教学实践中,经常有学生问及,在进行“倾向得分匹配”(Propensity Score Matching,简记PSM)之后,如何使用“匹配样本”(matched sample)再进行回归。学生们的这种心情可以理解,毕竟在计量经济学课程中,绝大多数时间只教一件事,那就是“回归”(regression)。或许学生们没做到回归这一步,就感觉没有完工。
但事实上,对于倾向得分匹配,一般并不宜在匹配之后再作回归。理由有三:其一没有必要,其二有时不便作回归,其三作回归可能反而有害,下面详细介绍。
有关倾向得分匹配的背景介绍与适用条件,可参考往期推文:
首先,使用倾向得分匹配已经得到了“平均处理效应”(average treatment effects)及其相应的标准误,可照常进行统计推断与因果分析,没有必要再画蛇添足地作回归。
在此建议使用Stata官方命令teffects psmatch进行倾向得分匹配,因为它可以提供正确的“AI稳健标准误”(AI Robust Standard Errors,由Abadie and Imbens (2016)所提出),而非官方命令psmatch2所提供的标准误并不正确,详见往期推文:
倾向得分匹配:psmatch2 还是 teffects psmatch
其次,在进行倾向得分匹配时,有不同的具体匹配方法,比如一对一匹配,一对多匹配,乃至“整体匹配”(global matching)等。显然,若要使用“匹配样本”(matched sample)进行回归,则仅适用于一对一匹配。
然而,在实践中,一对一匹配并不常用。这是因为,一对一匹配选择倾向得分最接近的邻居进行匹配,虽然“偏差”(bias)较小,但可能“方差”(variance)较大。在实证研究中,一般使用一对多匹配(比如一对四匹配),以便在偏差与方差之间取得较好的“权衡”(trade-off);因为对于四个最近邻居进行平均,可降低方差。
最后,即便使用一对一匹配进行倾向得分匹配,对匹配样本再作回归,也可能反而有害。倾向得分匹配之所以大行其道,一个重要原因是它无须假设函数形式,可视为“非参数估计”(nonparametric estimation),故比较稳健。因此,如果对匹配样本再作OLS回归,则又回到“参数估计”(parametric estimation)的老路,依赖于线性函数的模型设定,反而更不稳健。
当然,在倾向得分匹配的第一阶段中,一般使用Logit估计倾向得分,依然假设了函数形式(可加入非线性项),故倾向得分匹配也并非严格的非参数方法。事实上,在倾向得分匹配的最新发展中,已开始使用机器学习的方法(比如Lasso,随机森林)更好地预测第一阶段的倾向得分,从而更彻底地摆脱对于函数形式的依赖。
综上所述,在进行倾向得分匹配时,一般并不宜在匹配之后再作回归。当然,凡事都有例外。如果在使用倾向得分匹配时,利用匹配样本计算或定义某个指标或变量,然后再使用该变量进行其他回归,则一般没有问题,不受以上讨论的限制。
参考文献
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年
陈强,《计量经济学及Stata应用》,高等教育出版社,2015年(好评如潮的配套教学视频,可在Peixun.net 或网易云课堂购买)
陈强,《机器学习及R应用》,高等教育出版社,2020年11月
陈强,《机器学习及Python应用》,高等教育出版社,2021年3月,即将出版。