好控制变量or差控制变量

很多学者问如何引用计量经济圈刊发的文章,例如:1.洪永淼教授履新后首发文“概率论与统计学在经济学中的应用”! 前沿和经典方法应有尽有!2.SVAR模型的起源、识别、估计与应用, 系统讲述等。
不知这样如何?各位学者也可以提意见,这样能更好地引用这些文章。
洪永淼. 概率论与统计学在经济学中的应用[N/OL]. 计量经济圈,(2020/12/30)[2021/07/31]. https://mp.weixin.qq.com/s/ZfRzPlTJielgBXY_c0nmmA

正文

关于下方文字内容,作者:许诗蕾,华中科技大学经济学院(南开大学经济学院),通信邮箱:xushilei3740@126.com
作者之前的文章:1.太难了! 用天气做工具变量IV都被审稿人质疑! IV竟如此脆弱那有什么IV选取建议呢? 2.你所有回归结论可能都是错的, 只因外审说你少做了这个事情....., 太重要了!
Cinelli, Carlos and Forney, Andrew and Pearl, Judea, A Crash Course in Good and Bad Controls (April, 2021). Available at SSRN: https://ftp.cs.ucla.edu/pub/stat_ser/r493.pdf
Many students of statistics and econometrics express frustration with the way a problem known as “bad control” is treated in the traditional literature. The issue arises when the addition of a variable to a regression equation produces an unintended discrepancy between the regression coefficient and the effect that the coefficient is expected to represent. Avoiding such discrepancies presents a challenge to all analysts in the data intensive sciences. This note describes graphical tools for understanding, visualizing, and resolving the problem through a series of illustrative examples. We have found that the cases presented here can serve as a powerful instructional device to supplement more extended and formal discussions of the problem. By making this “crash course” accessible to instructors and practitioners, we hope to avail these tools to a broader community of scientists concerned with the causal interpretation of regression models.
在统计学和计量经济学研究中,许多学生或多或少会遭遇传统文献中所谓差控制变量的挑战,并感到沮丧。当在回归方程中增加一个变量,得到的回归系数和预期之间产生差异时,问题就出现了。而避免这类差异,对于数据密集型科学领域研究者而言是一个挑战。本文通过图模型和一系列例子,以可视化的方式,帮助理解和解决问题。我们发现,本文所提出的例子可以作为强大的数学工具,以补充和服务于更广泛和正式的问题讨论。通过让更多的研究者接触到这门“速成班”,我们希望本文中的工具能够帮助到更多关注回国模型因果解释的学者群体。
目录

1. 引言

目前在统计学和计量经济学文献中,差控制变量尚未引起系统性关注。多数流行教科书中讨论了遗漏相关变量的问题,但未就如何判断变量是否相关做出回应,也未解释某些变量进入回归会引发甚至增加现有的偏误的问题。多数研究者认知仍停留在“加入越多的控制变量,回归模型结果会越合意”上。少部分谈及差控制变量的文献对于此问题的讨论也较浅显(e.g. Angrist and Pischke, 2009, 2014; Wooldridge, 2020; Imbens and Rubin, 2015; Gelman et al., 2020)。Angrist and Pischke (2009, p. 64)对差控制变量的讨论较为经典:
Some Variables are bad controls and should not be included in a regression model, even when their inclusion might be expected to change the short regression coefficients. Bad controls are variables that are themselves outcome variables in the notional experiment at hand. That is, bad controls might just as well as dependent variables too. Good controls are variables that we can think of having been fixed at the time the regressor of interest was determined.
此处,好控制变量定义为不受处理的影响,相应地,差控制变量则会受到处理的影响。类似的讨论也出现在Rosenbaum(2002)和Rubin(2009)中,以确定倾向性评分分析中包含的变量。部分学者,如Wooldridge(2010)、Gelman et al.(2020),曾指出部分发生在处理前的变量可能存在放大偏误的问题,但未深入探讨。尽管在讨论较少的情况下,这些观点的提出确为一种进步,但观点中提及的条件对于判断一个变量是否为好控制变量而言,既不必需也不充分。
图模型(graphical model)的最新研究提出了区分好控制变量和差控制变量的简易准则。这些准则不仅包含了确定模型应纳入哪些变量以识别因果效应的必要条件充分条件,如Pearl(1995)和Shpitser et al.(2012)中的后门准则(back-door criterion)和调整准则(adjustment criterion);还有助于在面对各组有效控制变量集时决定何组将产生更精确的估计(Hahn,2004;White and Lu,2011;Henckel et al.,2019;Rotnitzky and Smucler,2019;Witte el al.,2020)。
本文假设读者具备因果推断的基础知识,了解有向无环图(directed acyclic graphs,DAGs)和后门路径(back-door path)。需要指出,在下文的模型中,本文主要关注处理变量X对于结果变量Y的平均因果效应(average causal effect,ACE)。在DAGs中,实心黑点表示观测性变量,空心白圆表示非观测性变量,红点表示变量Z。变量Z为待进入回归模型的变量:若其被纳入模型后可减小偏误,则其为好控制变量;若其被纳入模型后增加偏误,则其为差控制变量;若偏误未增加或减小,则其为中性(neutral)控制变量。在最后,本文简要说明了变量Z如何影响ACE估计精度。

模型1、2和3——好控制变量

模型1中,Z表示X和Y的共同原因(common cause)。当控制Z时,

的后门路径被阻断,可得无偏误的ACE估计。不同于模型1中Z为典型的混杂因素(confounder),模型2、3中的Z虽并非X和Y的共同原因,但控制Z可阻断由非观测性混杂因素U引起的

后门路径,从而可得无偏误的ACE估计。

模型4、5和6——好控制变量

需要注意,(X和Y的)中介变量和X的共同原因也会产生估计偏误。因此,在图2的模型中,本文展示了此类情况。但类似于模型1、2和3,当控制Z,便可阻断

的后门路径,进而可得无偏误的ACE估计。

模型7——差控制变量(M-偏误)

模型7中,Z与处理变量、结果变量相关,同时亦是处理前变量。在传统计量经济学课本中Z被认为是好控制变量(Angrist and Pischke,2009,2014;Imbens and Rubin,2015)。然而,依据后门准则,Z打开了后门路径

,进而造成了估计偏误。由于结构形状,这一偏误得名“M偏误”(M-bias),并引发了相关争议。相关讨论可见Pearl(2009a,p.1986)、Shrier(2009)、Pearl(2009c,b)、Sjolander(2009)、Rubin(2009)、Ding and Miratrix(2015)和Pearl(2015)。

模型8——中性控制变量(或助于估计精度)

模型8中,Z并非混杂因素,也没有阻断后门路径。同样地,控制Z并不会打开

的后门路径。因此就渐近偏误而言,Z为中性控制变量。但控制Z会减少结果变量Y的变动,进而提高ACE的估计精度(Hahn,2004;White and Lu,2011;Henckel et al.,2019;Rotnitzky and Smucler,2019)。

模型9——中性控制变量(或降低估计精度)

类似于模型8,模型9中的Z亦为中性控制变量。控制Z会减少处理变量X的变动,进而降低ACE估计精度(Henckel et al.,2019,推论3.4)。根据经验法则,X的母变量对因果识别不必要时,会降低估计精度;而Y的母变量不影响因果识别时,会提高估计精度。

模型10——差控制变量(偏差放大,bias amplification)

模型10中,盲目控制Z,并不会消除X和Y之间的混杂因素,在线性模型中,反会放大现有偏误。Bhattacharya and Vogt(2007)、Wooldridge(2009)、Pearl(2010,2011,2013)、Middleton et al.(2016)和Steiner and Kim(2016)对偏差放大的现象均有提及。

模型11和12——差控制变量

倘若我们关注ACE,那么必不可控制因果关系链上的变量。在模型11中,Z为

因果链上的中介变量。若控制Z,将阻断我们关注的因果效应(总体效应),进而造成估计偏误,即过度控制偏误(overcontrol bias)。在模型12中,尽管Z并非中介变量,但控制Z近似于控制中介变量M,进而造成估计偏误。模型11和12均违背了后门准则(Pearl,2009a),后门准则要求不能控制因果关系链上处理变量X的后代变量。

倘若关注X对Y的被控制的直接效应(controlled direct effect,CDE),即当控制Z为常量时,X对Y的效应,那么控制图7(a)中的Z是可行的。但当考虑图8中的模型11变形,此时U为Z和Y的混杂因素。首先,混杂因素U并不会影响X对Y的效应,因此只要不控制Z,模型11的ACE估计仍是无偏误的。倘若控制Z,便会打开

这条交汇路径,造成CDE估计偏误。

模型13——中性控制变量(或利于估计精度)

模型13中,Z为中介变量M的原因,也是结果变量Y的原因。因此类似于模型8,控制Z并不会影响估计偏误,同时可能提高ACE的估计精度。相关讨论可见Pearl(2013)。

模型14和15——中性控制变量

不同于传统计量经济学的观点,并非所有处理后变量都是差控制变量。模型14和15中,控制Z并不会打开

的任何混杂路径。因此,Z为中性控制变量。但控制Z会减少处理变量X的变动,降低ACE的估计精度。另外,模型15中,假设我们只用W=1的样本(样本选择偏差的一种情况)。在这种情况下,控制Z反而阻断了W造成的交汇路径,有助于得到W=1情况下,X对Y的因果效应。

模型16和17——差控制变量

模型16和17中,控制Z将造成样本选择偏差(selection bias)。模型16中,控制Z会打开

交汇路径,进而造成ACE估计偏误。模型17中,控制Z不仅打开了

路径,同时打开了由Y潜在母变量造成的交汇路径,进而造成ACE估计偏误。

模型18——差控制变量

模型18中,当控制结果变量Y,会造成ACE估计偏误,Z也就成为了差控制变量。这是由于Z为交汇变量——结果变量Y——的后代变量,Pearl(2009a,Sec. 11.3)称之为“虚拟交汇变量”(virtual collider)。Pearl(2013)中将模型18中特殊的样本选择偏差称为“案例控制偏差”(case-control bias)。但值得注意的是,当X和Y之间不存在因果效应时,即使控制Z,X和Y之间依旧分布独立,因此调整Z能够有效检验X对Y的因果效应是否为0.

2. 实证研究中的差控制变量

本文简要展示了实证研究中差控制变量的三个例子

出生体重悖论(Hernandez-Diaz et al., 2006)

相较于非抽烟者的后代,抽烟者的后代常有更高死亡率。然而,在出生体重较轻的婴儿中,这一研究结论正好相反。这引发了流行病学领域的争论——母亲吸烟是否对出生体重轻的婴儿有益?模型16对于这一争议提出了合理的解释。此处,X为母亲吸烟,Y为婴儿死亡率,Z为出生体重,而U表示可能影响出生体重的非观测性风险因素(例如,出生缺陷和营养不良)。若控制出生体重,可能导致母亲抽烟和婴儿死亡率间的虚假联系。营养不良等其他因素也可能造成非抽烟母体的婴儿出生体重轻,而这些因素也可能造成较高死亡率。

社会网络分析中的同质性偏误(Elwert and Winship, 2014)

社会网络的因果分析一项重要任务在于估计社会传染(social contagion)的因果效应,即人际效应(interpersonal effects)。然而,社会网络分析中的社会联系可能为处理前交汇变量,得到如模型7中的M偏误结构。假设,我们关注个体1的公民参与(X)是否会在随后一段时间内影响个体2的公民参与(Y)。Z为个体是否为好友,U1和U2分别表示个体1和个体2的性格(如利他主义)。此模型中,社会联系Z为交汇变量,计算朋友间(Z=1)Y和X的关联会造成公民参与中人际效应的估计偏误。

The Antebellum Puzzle(Schneider, 2020)

经济史上有一个有趣的谜题:在19世纪的英国和美国,虽然经济状况和儿童营养都有所改善,但成年男性的平均升高却呈现下降趋势。一个可能的解释是出现了模型17和18中的样本选择偏差,即研究者使用的数据为应征入伍的个体或狱中囚犯,有效控制了交汇变量。对于应征入伍的样本,考虑模型18,X为儿童时期的营养状况,Y为成年身高,Z表示个体是否应征入伍。

的因果路径因此分析对象限制于应征入伍的样本,即控制了Z,产生了样本选择偏差。而对于狱中囚犯的样本而言,考虑模型17,Z表示个体是否被捕入狱。而实际上,儿童时期的营养状况和成年后身高均可通过社会经济机会途径影响犯罪,进而造成样本选择偏差。

相关例子不胜枚举。感兴趣的读者找到许多有趣的例子。例如,Griffith et al.(2020)、Banack and Kaufman(2013)、Breen(2018)、Gaskell and Sleigh(2020)和Bello et al.(2018)。

3. 多重控制变量

当考虑多重控制变量时,前文中所阐述的观点依旧是成立的。好控制变量Z始终需要满足以下三个条件:
(1)其必须阻断处理变量到结果变量之间的所有非因果路径;
(2)其不影响处理变量到结果变量的任何中介路径;
(3)其不会打开处理变量到结果变量的任何虚拟路径。
就效率而言,我们更倾向于选择“接近”结果变量的变量。最后,值得注意的是,当模型结构较复杂时,我们可以诉诸于电脑程序,如R包(pcalg,dagitty和causaleffect),SAS程序(CAUSALGRAPH)及相关网页应用。

4. 总结

本文通过图模型阐述了区分好控制变量和差控制变量的简易准则,帮助确认哪些变量可进入回归模型。所举的部分例子对传统统计学和计量经济学的观点提出了挑战:模型7~10提示实证研究者需要警惕一些“建议”,如控制所有处理前变量;模型14和15提示实证研究者——并不是所有处理后变量都是差控制变量,此类变量可能有助于识别因果。
关于回归中变量的问题
1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果,30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!33.因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢?34.审稿人有义务告诉你回归中可能的遗漏变量么?,35.回归中常数项显著说明模型中有遗漏变量问题?

下这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。
(0)

相关推荐