不用太关心控制变量的符号,真的!


📣 不用太关心控制变量的符号,即使符号不合预期也没太大关系,真的!


作者: 刘琦(剑桥大学)
邮箱: ql301@cam.ac.uk

[source]: Hünermund P, Louw B. On the Nuisance of Control Variables in Regression Analysis[J]. arXiv preprint arXiv:2005.10314, 2020. -Link-


目录

  • 1. 引言

  • 2. 控制变量的结构性解释

  • 3. 对实证研究分析的启示

  • 参考文献


在回归分析中,我们经常会引入「控制变量」来更好的评估自变量和因变量之间的因果关系。在这篇文章中,我们认为控制变量本身是不具有因果解释的。因此,我们建议在实证研究论文的结果部分「不要讨论其边际效应」。

1. 引言

多元回归分析 (multivariate regression) 是战略管理和经济学实证研究中的重要工具。这种方法通过引入控制变量来缓解混杂变量对因果效应估计的干扰。尽管控制变量在因果推断中处在一个很重要的地位,但在实证研究中,学者经常夸大其作用。

在本文中,我们认为:虽然控制变量对于因果关系的识别至关重要,但其本身通常不具有结构性解释。即使是有效的控制变量,也常常会与其他未观察到 (或不能观测到) 的因素(unobserved factors)关联,从因果推断的角度来看,这使得它们的边际效应无法解释 (Westreich 和 Greenland,2013;Keele等,2020)。因此,研究人员应考虑在解释其分析结果时完全忽略它们。

然而,在研究中,从控制变量中得出实质性结论的现象很普遍,例如,「控制变量的影响符合预期」 、「在结果中,我们的控制变量的结果值得注意」 等表述。具体来看,我们对近五年来在 Strategic Management Journal 上使用参数回归模型的论文进行了分析,发现有近 47% 的文章明确讨论了控制变量的估计效果。

此外,审稿人也经常会以「尽管这些控制变量并不是分析的主要重点,但他们仍然可以提供有价值的信息」为依据,要求论文作者提供控制变量系数的经济解释的情况。

2. 控制变量的结构性解释

Durand 和 Vaara (2009) 在战略管理的文献中,首次引入因果图进行实证研究的逻辑梳理,并且高度评价其作用。考虑到回归中解释变量与控制变量间关系的复杂性,接下来,我们将使用因果图进行描述分析 (Pearl,2000; Hünermund,Bareinboim 2019)。

图 a 给出了一个简单的有关处理变量 (treatment variable) 和结果变量 (outcome variable) 的经济模型,并且两个变量之间的关系被箭头连接,用来表明两个因素之间的因果关系。此外, 和 是两个可能会影响处理变量和结果变量的混杂因素,是相互关联的 (correlated),并通过图中的虚线双向弧线来表示。同时, 和 这种相互关联的关系,也给处理变量和结果变量之间的关系提供了一个活动途径 (Pearl,2000)。因此, 和 不仅通过真正的因果路径 连接,而且还通过第二条路径 ( 对 的因果关系)、 ( 对 的因果关系)、以及 ( 和 有相互关联的作用) 来连接,这会产生虚假的非因果关系。

在回归分析中,控制变量正好可以阻止此类活动 (backdoor) 的路径。故根据图 a,研究人员可以选择控制 或者 (两者都可以被用来确定因果关系)以获得 对 的无污染影响。

尽管如此,在控制 的情况下,其边际效应本身将不对应于 对 的任何因果效应。这主要是因为 与 相关, 将部分吸收 对 的因果影响 (Cinelli and Hazlett,2020)。

图 b 描绘了一个包含几组控制变量的更为复杂的示例,并且每组都足以确定 对 的因果关系 (Textor 和 Liśkiewicz,2012)。在这种情况下:一种可能性是仅控制 ,从而阻止所有通过后门进入 的路径;第二种,控制 的直接影响因素 (、 和 ),这也将阻止所有后门路径;第三种选择是控制整个混杂因素 (、、、 和 ),这将是最耗费数据的策略,并且由于自由度较低,将会导致估算值不精确。这个例子也说明了用于识别因果关系 的控制变量组个数 (在此为 ),通常小于一个模型中混杂变量的总数。同时,如果 的所有直接影响因素 (此处为 、 和 )在回归中都考虑到,则控制变量的估计可以得到一个结构性解释。但这又不太可能实现,因为在许多实际环境中,影响 的因素可能会很多。

3. 对实证研究分析的启示

对有偏差 (biased) 的控制变量系数的边际效应解释是存在问题的,研究人员可能会发现错误的结论,除非可以确定在回归分析中考虑了结果变量的所有相关影响因素 (all-causes regression),否则不建议在实证研究中讨论控制变量的系数。同时,我们也建议仅将控制变量视为识别因果关系的干扰项,并不要在报告结果中展示 (Liang 和 Zeger,1995)。

我们对控制变量系数解释方式的建议也适用于非参数匹配估计 (Heckman 等,1998) 和现代机器学习,特别是高维设置 (Belloni 等,2014)。

简而言之,我们不需要过多的担心「控制变量的系数变化并没有预期的迹象」。因为在实际操作中控制变量的估计总是可能会产生偏差。相反,研究人员应该更加专注于解释主要变量的边际效应。相比之下,控制变量几乎没有实质性意义,我们可以放心地省略或只在附录中讨论。这样不仅会有效阻止研究人员从控制变量中得出错误的因果结论,而且还简化实证研究论文的讨论部分,并节省宝贵的资源用来讨论主要变量的经济效果。

参考文献

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。

  • Hünermund P, Louw B. On the Nuisance of Control Variables in Regression Analysis[J]. arXiv preprint arXiv:2005.10314, 2020. -Link-
  • Westreich D, Greenland S. The table 2 fallacy: presenting and interpreting confounder and modifier coefficients[J]. American journal of epidemiology, 2013, 177(4): 292-298. -Link-
  • Keele L, Stevenson R T, Elwert F. The causal interpretation of estimated associations in regression models[J]. Political Science Research and Methods, 2020, 8(1): 1-13. -Link-
  • Durand R, Vaara E. Causation, counterfactuals, and competitive advantage[J]. Strategic Management Journal, 2009, 30(12): 1245-1264. -Link-
  • Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000. -Link-
  • Hünermund P, Bareinboim E. Causal inference and data-fusion in econometrics[J]. arXiv preprint arXiv:1912.09104, 2019. -Link-
  • Cinelli C, Hazlett C. Making sense of sensitivity: Extending omitted variable bias[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2020, 82(1): 39-67. -Link-
  • Textor J, Liskiewicz M. Adjustment criteria in causal diagrams: An algorithmic perspective[J]. arXiv preprint arXiv:1202.3764, 2012. -Link-
  • Liang K Y, Zeger S L. Inference based on estimating functions in the presence of nuisance parameters[J]. Statistical Science, 1995, 10(2): 158-173. -Link-
  • Heckman J J, Ichimura H, Todd P. Matching as an econometric evaluation estimator[J]. The review of economic studies, 1998, 65(2): 261-294. -Link-
  • Belloni A, Chernozhukov V, Hansen C. High-dimensional methods and inference on structural and treatment effects[J]. Journal of Economic Perspectives, 2014, 28(2): 29-50. -Link-
(0)

相关推荐

  • 方法论衡 | Baumgartner等:广义一致分析:QCA的替代方案

    文献来源:Michael Baumgartner and Mathias Ambühl, "Causal modeling with multi-value and fuzzy-set Co ...

  • 因果 X:解决多学科领域的因果问题 | 因果科学读书会第三季启动

    导语 "因果"并不是一个新概念,而是一个已经在多个学科中使用了数十年的分析技术.通过前两季的分享,我们主要梳理了因果科学在计算机领域的前沿进展.如要融会贯通,我们需要回顾数十年来在 ...

  • 会议侧记 | 比较政治中的案例选择

    嫩柳垂绿,湖波微皱,四月天气.2020年4月25日14时,比较历史分析系列活动之比较政治中的案例选择专题线上讨论如期而至.本次会议有幸邀请到了案例研究领域两位青年才俊与四位不同研究方向的实力嘉宾,共同 ...

  • 好控制变量or差控制变量

    很多学者问如何引用计量经济圈刊发的文章,例如:1.洪永淼教授履新后首发文"概率论与统计学在经济学中的应用"! 前沿和经典方法应有尽有!2.SVAR模型的起源.识别.估计与应用, 系 ...

  • 实证研究方法

    本文主要包括实证研究方法概述.实证研究的基本流程.实证设计的基本方法与原则.实证设计成功的关键要素.实证研究的优势与局限等五部分内容. 实证研究方法概述 1 实证研究(Empirical Resear ...

  • 博导讲堂|实证论文写作的四个阶段

    作者简介: 刘西川  华中农业大学经济管理学院教授.博士生导师,中国合作经济管理学会理事,国家自然科学基金项目通讯评议人,<经济研究><管理世界><金融研究>< ...

  • 提高姓名心理学研究的可靠程度

    自古以来,姓名及其对个体的影响一直是人们非常感兴趣的话题.为了解开姓名的谜团,中国民间涌现了大量关于姓名的朴素观念,乃至八字.五行等玄学算命思想,认为一个人的姓名能够决定其人生发展.这些传统观念影响着 ...

  • 使用结构方程模型需要知道的那些事

    本期与朋友们聊聊使用结构方程模型(structural equation modeling,SEM)分析生态环境数据时需要提前明确的一些问题.本文采用自问自答的形式,共分理论和应用两篇,本期为理论篇. ...

  • 横向因果与纵向因果——计算社会科学的范式探讨

    摘要:"因果"是各学科共同关心的议题,近年来,大数据时代的到来和人工智能领域的发展使得因果研究受到愈加广泛的重视.自休谟以来,哲学家.科学家从"因果关系"和&q ...

  • 我为你归纳了关于归纳的知识(图文版)

    欢迎回来,我们继续聊逻辑. 上期说,我们要在逻辑知识和逻辑能力之间搭一座桥,桥上有三把利剑.三枚盾牌和一面镜子,借助它们,我们将认识「三种推理」和「三类谬误」,澄清「逻辑与口语表达」之间的关系. 上期 ...

  • 诺贝尔经济学奖:从理论研究走向实证研究

    诺贝尔经济学奖:从理论研究走向实证研究 来源:深圳特区报 原标题:诺贝尔经济学奖:从理论研究走向实证研究 提要 戴维·卡德的贡献,主要是用经验研究方法对劳动经济学领域内的一些重大问题进行了检验,从而为 ...