如何量化因果推断的稳健性?

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
正文
关于下方文字内容,作者:王慧敏, 江苏科技大学,通信邮箱:1484802359@qq.com
Xu R, Frank KA, Maroulis SJ, Rosenberg JM. konfound: Command to quantify robustness of causal inferences. The Stata Journal. 2019;19(3):523-550. doi:10.1177/1536867X19874223
Statistical methods that quantify the discourse about causal inferences in terms of possible sources of biases are becoming increasingly important to many social-science fields such as public policy, sociology, and education. These methods are also known as “robustness or sensitivity analyses”. A series of recent works (Frank [2000, Sociological Methods and Research 29: 147–194]; Pan and Frank [2003, Journal of Educational and Behavioral Statistics 28: 315– 337]; Frank and Min [2007, Sociological Methodology 37: 349–392]; and Frank et al. [2013, Educational Evaluation and Policy Analysis 35: 437–460]) on robustness analysis extends earlier methods. We implement these recent developments in Stata. In particular, we provide commands to quantify the percent bias necessary to invalidate an inference from a Rubin causal model framework and the robustness of causal inferences in terms of correlations associated with unobserved variables.
目录

一 摘要

在公共政策、社会学和教育等社会科学领域中,依据偏见的可能来源,量化因果推断论述的统计方法变得越来越重要。这些统计方法被称为“稳健性或敏感性分析”。Frank(2000),Pan & Frank(2003)、Frank & Min(2007)、Frank et al.(2013) 扩展了稳健性的研究方法。本文利用Stata指令实现方法演化过程。通过命令量化Rubin因果模型框架的推断无效所需的偏差百分比,以及根据未观察变量的相关关系,进行因果推断的稳健性分析。

二 引言

统计推断常常因不受控制的偏差而受到质疑。不受控制的混杂变量或样本的非随机选择会带来偏差。敏感性分析方法用来评估偏差推断的稳健性,并为因果推断提供信息。但是,以前的方法只考虑特定的偏差(如未观察到的变量),或者只应用于某些特定的数据(如分类处理变量;DiPrete & Gangl[2004];Gill & Robins[2001];Robins[1987];Robins, Rotnitzky & Scharfstein[2000];Rosenbaum[1986,2002];Scharfstein和Irizarry[2003];VanderWeele[2010];VanderWeele和Arah[2011])。在一系列文章(Frank[2000];Pan和Frank[2003];Frank和Min[2007];Frank等人[2013])中,研究人员扩展了先前的工作并设计了两个稳健性分析框架。第一种方法是利用Rubin因果模型,根据反事实案例或未抽样人群中的案例替换观察案例,解释存在多少偏差才能使推断无效。第二种方法是依据回归框架中与未观测变量间相关关系,来量化因果推断的稳健性。
本文介绍在Stata中实现上述两种稳健性分析方法的konfound命令。Konfound命令可实现稳健性分析;mkonfound命令可以实现多个研究的稳健性分析;pkonfound命令可实现已发布研究的稳健性分析。本文简要讨论在Stata中如何利用konfound命令进行稳健性分析。更多详细介绍和更多技术细节,参照Frank(2000), Pan & Frank(2003), Frank & Min(2007),Frank et al.(2008, 2013)。

三 konfound命令

1)案例1(konfound命令应用于线性回归模型)

采用在新罕布什尔州康科德报告的一项用水调查(Hamilton, 1992),因变量是1981年夏季家庭用水量(water81),自变量是1980年夏季家庭用水量(water80)、家庭收入(income)、教育年限(educ)、户主是否退休(retire)以及1980年家庭人数(peop80)。
结果分析
1980年夏季家庭用水量(water80)、收入、1980年家庭人数(peop80)估计结果均具有统计显著性(p<0.001),可以使用konfound命令,量化遗漏变量推断稳健性或者实现推断无效所需的偏差百分比。
第一个表格基于无条件相关性,第二个表格基于偏相关性。
第一部分结果显示对于1980年家庭人数(peop80),实现推断无效所需的偏差百分比为74.96%(372)。第二部结果显示遗漏变量的影响为0.2697,假设其他被观测协变量条件下,为实现推断无效,遗漏变量与结果(water81)、兴趣预测因子(water80)间的相关性为0.519。
图3,呈现了为实现推断无效,1980年家庭人数对1981年夏季家庭用水量效应的偏差百分比。
第一个表包含在对其他协变量进行条件处理前,兴趣预测因子(peop80)和结果(water81)间的相关。第二个表中包含在对其他协变量进行条件处理前,每个协变量、兴趣预测因子(peop80)与结果(water81)间的相关性。通过比较实现推断无效所需遗漏变量的影响与被观测协变量的影响,这两个表可用于估测推断稳健性。图4呈现了在回归中加入遗漏混合变量,peop80与water81间的偏相关性。实现推断无效所需遗漏混合变量的影响(ITCV)必须大于收入(教育、退休)的影响。若遗漏混合变量的影响与1980年夏季用水量(water80)的影响相等,则推断无效。

2)案例2(konfound命令应用于非线性回归模型)

通过量化遗漏变量的影响实现推断无效适用于线性回归模型,不能应用于非线性回归模型,但是在非线性回归模型中,通过量化偏差百分比实现推断无效,可以计算基于平均边际效应(Wooldridge, 2010)替代原始回归系数,便于计算不同函数形式模型的稳健性。
案例2是来自佛蒙特州威廉斯敦有毒废弃物的调查数据(Hamilton, 1992)。结果是一个二分变量,表明受访者是否认为受污染的学校应该关闭(close)。自变量包含受访者在威廉斯敦的居住年限(lived)、受教育年限(educ)、是否参加过两次以上健康安全委员会会议(hsc)、受访者是否为女性(female)。将学校关闭(close)作为最终结果进行逻辑回归:
结果显示,是否参加过两次以上健康安全委员会会议(hsc)的估计效应是具有统计显著性(p<0.001),利用konfound非线性模型命令,计算实现推断无效所需的偏差百分比。
结果表明,为实现推断无效,估计值70.5%归因于偏差,70.5%(108)案例必须替换为效应0的案例。与计算基于原始回归系数相比,计算基于平均边际效应的推断更稳健。

四 mkonfound命令

案例

用10项研究的t比率和自由度来阐述mkonfound命令的使用:
其次,采用mkonfound命令计算实现推断无效或支持推断所需的偏差百分比,计算遗漏变量的影响阈值。
为了计算遗漏变量的影响阈值,mkonfound命令生成四个变量。第一个变量是itcv,表明实现推断无效或支持推断所需的遗漏变量的影响。第二个变量是r_cv_y,表明实现推断无效或支持推断所需的遗漏变量与结果间的相关性。第三个变量是r_cv_x,表明在其他协变量条件处理下,实现推断无效或支持推断所需的遗漏变量与预测因子间的相关性。第四个变量是stat_sig,表明原始回归系数具有统计显著性,是为1,否为0。
为了计算实现推断无效或支持推断的偏差百分比,mkonfound命令生成两个变量,percent_replace(percen~e)和percent_sustain(percen~n)。对于统计显著性研究,percent_replace表明为实现推断无效的原始案例替代比例。对于统计上不显著的研究, percent_sustain表明为实现支持推断的原始案例替代比例。

五 pkonfound命令

案例

为进一步阐述pkonfound命令的应用,假设已发表研究的估计效应为10,估计的标准误差为2,样本量为100,协变量数量为4。计算实现推断无效所需的偏差百分比和遗漏变量的影响阈值,具体如下:
与konfound命令类似,结果分为两部分。输出结果的第一部分显示了实现推断无效所需的遗漏混合变量的影响阈值和成分相关性为0.569。输出的第二部分显示了实现推断无效所需的偏差百分比为60.29%。

关于内生性问题,参看看完顶级期刊文章后, 整理了内生性处理小册子;1.“内生性” 到底是什么鬼? New Yorker告诉你;2.Heckman两步法的内生性问题(IV-Heckman);3.IV和GMM相关估计步骤,内生性、异方差性等检验方法;4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题;5.毛咕噜论文中一些有趣的工具变量!;6.非线性面板模型中内生性解决方案;7.内生性处理的秘密武器-工具变量估计;8.内生性处理方法与进展;9.内生性问题和倾向得分匹配;10.你的内生性解决方式out, ERM独领风骚;11.工具变量IV必读文章20篇, 因果识别就靠他了;12.面板数据是怎样处理内生性的;13.计量分析中的内生性问题综述;14.工具变量IV与内生性处理的解读;15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法;17.面板数据中heckman方法和程序(xtheckman);18.控制函数法CF, 处理内生性的广义方法;19.二值选择模型内生性检验方法;20.2SRI还是2SPS, 内生性问题的二阶段CF法实现;21.内生变量的交互项如何寻工具变量;22.工具变量精辟解释, 保证你一辈子都忘不了,23.不同来源的内生性问题需要不同的修正方法!24.实证分析中的内生性问题综述,一篇值得阅读和推荐的作品!,25.一张图掌握Top期刊里不同来源内生性处理方法!26.简洁的内生性问题处理思维流程图, 并且还附上检验的代码!27.最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用,28.实证研究中自选择基础上的内生性问题回顾, 建议和纠正措施!29.实证研究中基于自选择的内生性问题修正方法:回顾、建议与模拟!30.不同来源的内生性问题需要不同的修正方法!31.不用IV, 基于异方差解决内生性问题方法的使用建议, 附上程序和示例!32.最清晰的内生性问题详解及软件操作方案!实证研究必备工具!33.内生性问题研究: 4篇推荐与8点认识,34.Quasi-experiment经典文章, 有趣且内生性检验新颖

关于Stata,1.Stata16新增功能有哪些? 满满干货拿走不谢,2.Stata资料全分享,快点收藏学习3.Stata统计功能、数据作图、学习资源4.Stata学习的书籍和材料大放送, 以火力全开的势头5.史上最全Stata绘图技巧, 女生的最爱,6.把Stata结果输出到word, excel的干货方案,7.编程语言中的函数什么鬼?Stata所有函数在此集结,8.世界范围内使用最多的500个Stata程序,9.6张图掌握Stata软件的方方面面, 还有谁, 还有谁? 10.LR检验、Wald检验、LM检验什么鬼?怎么在Stata实现,11.Stata15版新功能,你竟然没有想到,一睹为快,12."高级计量经济学及Stata应用"和"Stata十八讲"配套数据,13.数据管理的Stata程序功夫秘籍,14.非线性面板模型中内生性解决方案以及Stata命令15.把动态面板命令讲清楚了,对Stata的ado详尽解,16.半参数估计思想和Stata操作示例,17.Stata最有用的points都在这里,无可替代的材料18.PSM倾向匹配Stata操作详细步骤和代码,干货十足,19.随机前沿分析和包络数据分析 SFA,DEA 及Stata操作,20.福利大放送, Stata编程技巧和使用Tips大集成,21.使用Stata进行随机前沿分析的经典操作指南,22.Stata, 不可能后悔的10篇文章, 编程code和注解,23.用Stata学习Econometrics的小tips, 第二发礼炮,24.用Stata学习Econometrics的小tips, 第一发礼炮,25.广义合成控制法gsynth, Stata运行程序release,26.多重中介效应的估计与检验, Stata MP15可下载,27.输出变量的描述性统计的方案,28.2SLS第一阶段输出, 截面或面板数据及统计值都行,29.盈余管理指标的构建及其Stata实现程序, 对应解读和经典文献,30.Python, Stata, R软件史上最全快捷键合辑!,31.用Stata做面板数据分析, 操作代码应有尽有,32.用Stata做面板数据分析, 操作代码应有尽有,33.没有这5个Stata命令, 我真的会活不下去!,34.第一(二)卷.Stata最新且有趣的程序系列汇编,35.第三卷.Stata最新且急需的程序系列汇编,36.第四卷.Stata最新且急需的程序系列汇编,37.干货: UN和WTO推荐的最全且权威的实证研究方法及在Stata实现!必收藏!38.再中心化影响函数RIF回归和分解的Stata操作程序39.R和Stata软件meta分析操作详细攻略, 对研究再开展研究的利器!40.不能安装Stata命令咋弄?这个方法一直都比较靠谱!,41.使用Stata做结构方程模型GSEM的操作指南42.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用,43.一些Stata常见操作代码和注释, 能够让年轻学人更快掌握相关命令!44.Stata语言中的常用函数及其用法解释, 在附上42篇Stata相关学习资料,45.Stata经典操作笔记和学习资源合辑! 都是些博士生导师比较推荐的!

断点回归设计RDD的文章1.断点回归设计RDD分类与操作案例,2.RDD断点回归, Stata程序百科全书式的宝典,3.断点回归设计的前沿研究现状, RDD,4.断点回归设计什么鬼?且听哈佛客解析,5.断点回归和读者的提问解答,6.断点回归设计RDD全面讲解, 教育领域用者众多,7.没有工具变量、断点和随机冲击,也可以推断归因,8.找不到IV, RD和DID该怎么办? 这有一种备选方法,9.2卷RDD断点回归使用手册, 含Stata和R软件操作流程,10.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,11.安神+克拉克奖得主的RDD论文, 断点回归设计,12.伊斯兰政府到底对妇女友不友好?RDD经典文献,13.PSM,RDD,Heckman,Panel模型的操作程序,14.RDD经典文献, RDD模型有效性稳健性检验,15.2019年发表在JDE上的有趣文章, 计量方法最新趋势,16.关于(模糊)断点回归设计的100篇精选Articles专辑!17.断点回归设计RDD精辟解释, 保证你一辈子都忘不了,18.“RDD女王”获2020年小诺奖!她的RD数据, 程序, GIS和博士论文可下载!关于她学术研究过程的最全采访!19.中国博导要求掌握的RDD方法实证运用范文(配程序code), 不然就不要用RDD做实证研究!20.最近70篇关于中国环境生态的经济学papers合辑!21.事件研究法用于DID的经典文献"环境规制"论文数据和程序,22.环境, 能源和资源经济学手册推荐, 经典著作需要反复咀嚼,23.中文刊上用断点回归RDD和合成控制法SCM的实证文章有哪些?不看至少需要收藏一下!24.上双一流大学能多赚多少钱? 学习断点回归RDD, 机制分析的经典文章!25.JPE上利用地理断点RDD和IV研究中国环境议题的do文件release!

关于工具变量,参看1.内生性问题操作指南, 广为流传的22篇文章,2.看完顶级期刊文章后, 整理了内生性处理小册子,3.如何寻找工具变量?得工具者得实证计量,4.内生性处理的秘密武器-工具变量估,5.工具变量在社会科学因果推断中的应用,6.为你的"工具变量"合理性进行辩护, 此文献可以作为范例,7.没有工具变量、断点和随机冲击,也可以推断归因,8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析,9.工具变量IV与内生性处理的精细解读,10.我的"工具变量"走丢了,寻找工具变量思路手册,11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性,12.豪斯曼, 拉姆齐检验,过度拟合,弱工具和过度识别,模型选择和重抽样问题,13.工具变量先锋 Sargan,供参考,14.AEA期刊的IV靠不靠谱?15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom,16.GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来,17.IV和GMM相关估计步骤,内生性、异方差性等检验方法,18.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?19.内生变量的交互项如何寻工具变量, 交互项共线咋办,20.面板数据、工具变量选择和HAUSMAN检验的若干问题,21.IV和Matching老矣, “弹性联合似然法”成新趋势,22.IV回归系数比OLS大很多咋回事, 怎么办呢? ,23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献,24.找不到IV, RD和DID该怎么办? 这有一种备选方法,25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS,26.内生性, 工具变量与 GMM估计, 程序code附,27.GMM和工具变量在面板数据中的运用,28.关于工具变量的材料包, 标题,模型,内生变量,工具变量,29.必须使用所有外生变量作为工具变量吗?30.工具变量精辟解释, 保证你一辈子都忘不了,31.毛咕噜论文中一些有趣的工具变量!33.前沿: 删失数据分位数工具变量(CQIV)估计, 做删失数据异质性效应分析34.不需要找工具变量, 新方式构建工具变量, 导师再也不用担心内生性问题了!35.关于顶级外刊工具变量的使用最全策略, 不收藏反复读就不要谈IV估计!36.如何通过因果图选择合适的工具变量?一份关于IV的简短百科全书37.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑!因果关系研究的图形工具! 38.最清晰的内生性问题详解及软件操作方案!实证研究必备工具!39.中国女学者与其日本同行在JPE上发文了!利用独特数据, 地理断点RDD和IV研究中国环境议题!40.双胞胎样本解决遗漏变量和测量误差, LIV解决选择偏差41.内生性处理的秘密武器-工具变量估计42.工具变量IV必读文章20篇, 因果识别就靠他了43.看完顶级期刊文章后, 整理了内生性处理小册子44.“内生性” 到底是什么鬼? New Yorker告诉你,45.Heckman两步法的内生性问题(IV-Heckman),46.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题47.非线性面板模型中内生性解决方案48.内生性处理方法与进展49.内生性问题和倾向得分匹配50.你的内生性解决方式out, ERM独领风骚51.面板数据是怎样处理内生性的52.计量分析中的内生性问题综述53.一份改变实证研究的内生性处理思维导图54.Top期刊里不同来源内生性处理方法55.面板数据中heckman方法和程序(xtheckman),56.控制函数法CF, 处理内生性的广义方法57.二值选择模型内生性检验方法58.2SRI还是2SPS, 内生性问题的二阶段CF法实现59.非线性模型及离散内生变量处理利器, 应用计量经济学中的控制函数法!60.最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用,61.如何选择合适的工具变量, 基于既有文献的总结和解释!62.中介效应最新进展: 中介效应中的工具变量法使用方法及其代码!63.弱工具变量的稳健性检验, 附上code和相关说明!64.工具变量对因果效应的识别和外推, 大牛的顶级评述!

关于一些计量方法的合辑,参看实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!

下这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。
(0)

相关推荐