为何在倾向得分匹配之后一般不宜再作回归 / 开普饭

高级计量经济学及Stata现场班

陈强亲授

北京, 2021年5月1-5日

Now or Never!

（详情点击页底“阅读原文”）

在我的计量教学实践中，经常有学生问及，在进行“倾向得分匹配”（Propensity Score Matching，简记PSM）之后，如何使用“匹配样本”（matched sample）再进行回归。学生们的这种心情可以理解，毕竟在计量经济学课程中，绝大多数时间只教一件事，那就是“回归”（regression）。或许学生们没做到回归这一步，就感觉没有完工。

但事实上，对于倾向得分匹配，一般并不宜在匹配之后再作回归。理由有三：其一没有必要，其二有时不便作回归，其三作回归可能反而有害，下面详细介绍。

有关倾向得分匹配的背景介绍与适用条件，可参考往期推文：

计量方法的适用条件汇总（二）：倾向得分匹配

首先，使用倾向得分匹配已经得到了“平均处理效应”（average treatment effects）及其相应的标准误，可照常进行统计推断与因果分析，没有必要再画蛇添足地作回归。

在此建议使用Stata官方命令teffects psmatch进行倾向得分匹配，因为它可以提供正确的“AI稳健标准误”（AI Robust Standard Errors，由Abadie and Imbens (2016)所提出），而非官方命令psmatch2所提供的标准误并不正确，详见往期推文：

倾向得分匹配：psmatch2 还是 teffects psmatch

其次，在进行倾向得分匹配时，有不同的具体匹配方法，比如一对一匹配，一对多匹配，乃至“整体匹配”（global matching）等。显然，若要使用“匹配样本”（matched sample）进行回归，则仅适用于一对一匹配。

然而，在实践中，一对一匹配并不常用。这是因为，一对一匹配选择倾向得分最接近的邻居进行匹配，虽然“偏差”（bias）较小，但可能“方差”（variance）较大。在实证研究中，一般使用一对多匹配（比如一对四匹配），以便在偏差与方差之间取得较好的“权衡”（trade-off）；因为对于四个最近邻居进行平均，可降低方差。

最后，即便使用一对一匹配进行倾向得分匹配，对匹配样本再作回归，也可能反而有害。倾向得分匹配之所以大行其道，一个重要原因是它无须假设函数形式，可视为“非参数估计”（nonparametric estimation），故比较稳健。因此，如果对匹配样本再作OLS回归，则又回到“参数估计”（parametric estimation）的老路，依赖于线性函数的模型设定，反而更不稳健。

当然，在倾向得分匹配的第一阶段中，一般使用Logit估计倾向得分，依然假设了函数形式（可加入非线性项），故倾向得分匹配也并非严格的非参数方法。事实上，在倾向得分匹配的最新发展中，已开始使用机器学习的方法（比如Lasso，随机森林）更好地预测第一阶段的倾向得分，从而更彻底地摆脱对于函数形式的依赖。

综上所述，在进行倾向得分匹配时，一般并不宜在匹配之后再作回归。当然，凡事都有例外。如果在使用倾向得分匹配时，利用匹配样本计算或定义某个指标或变量，然后再使用该变量进行其他回归，则一般没有问题，不受以上讨论的限制。

参考文献

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年

陈强，《计量经济学及Stata应用》，高等教育出版社，2015年（好评如潮的配套教学视频，可在Peixun.net 或网易云课堂购买）

陈强，《机器学习及R应用》，高等教育出版社，2020年11月

陈强，《机器学习及Python应用》，高等教育出版社，2021年3月，即将出版。

为何在倾向得分匹配之后一般不宜再作回归

相关推荐