AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚！ / 开普饭

稿件：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于p值，可参看1.统计显著与经济显著, 发AER和经济研究的标配，2.美国宣布禁用p值，原来p值很危险，如何取代p值？3.科学家倡议P值需要0.005，显著性判断才成立，4.800名科学家联合呼吁, 停止使用统计学上的P值，5.美国统计学会关于ｐ值的声明，6.p-hacking的精辟解释, 保证你一辈子都忘不了！7.DID和IV操纵空间大吗? 一切皆为P-hacking

Brodeur, Abel, Nikolai Cook, and Anthony Heyes. 2020. "Methods Matter: p-Hacking and Publication Bias in Causal Analysis in Economics." American Economic Review, 110 (11): 3634-60.
The credibility revolution in economics has promoted causal identification using randomized control trials (RCT), difference-in-differences (DID), instrumental variables (IV) and regression discontinuity design (RDD). Applying multiple approaches to over 21,000 hypothesis tests published in 25 leading economics journals, we find that the extent of p-hacking and publication bias varies greatly by method. IV (and to a lesser extent DID) are particularly problematic. We find no evidence that (i) papers published in the Top 5 journals are different to others; (ii) the journal "revise and resubmit" process mitigates the problem; (iii) things are improving through time.

经济学中的可信度革命促进了使用随机对照试验(RCT)、双重差分法(DID)、工具变量法(IV)和断点回归设计(RDD)进行变量关系间的因果识别。本文运用多种方法对发表在25种主要经济学期刊上的21000多项假设检验进行研究，作者发现不同方法导致的p-hacking和发表偏倚程度存在很大差异。工具变量法(以及在较小程度上双重差分法)尤其成问题。我们没有发现任何证据表明(i)前5名期刊上发表的论文与其他期刊上发表的有不同；(ii)期刊"修订和重新提交"程序缓解了这个问题；(iii)随着时间的推移，情况正在改善。

实证经济学的可信度革命的标志从相关关系转向使用因果推断的方法。实验和准实验方法，即随机对照试验(RCT)、双重差分法(DID)、工具变量法(IV)和断点回归设计(RDD)，已经成为应用微观经济学最常见的计量方法。

本文探讨了推断方法与统计显著性之间的关系。迄今为止，在经济学和其他学科中选择性发表（selective publication）和识别搜寻（specification searching）的证据浩如烟海。结果的统计显著性决定了发表的概率，发表偏倚很可能是同行评审过程的反映。p-hacking这个术语指的是研究人员可能(有意或无意地)用来产生“更好的”p值的各种实践，可能(但不一定)是为了应对“发表统计上不显著的结果相当困难”的问题。方法和统计显著性之间的联系可能会引起政策制定者或其他使用经验证据为决策和政策提供信息的人的兴趣，因为发表偏倚和p-hacking会人为地产生高误报率。

本文的中心问题是(i)在顶尖的经济学期刊中，p-hacking和发表偏倚的程度如何？(ii)是否取决于所使用的推断方法，或其作者和文章特征？(iii)评审过程是否加剧或缓解了这一问题？(iv)随着时间的推移是否有所改善？为了回答这些问题和一些次要问题，我们收集了2015年和2018年使用这四种方法发表在25种顶级经济学期刊上的论文中报告的假设检验。

总体而言，已公布的检验统计数据的分布呈现双峰或骆驼形状，在常规显著性阈值(即z = 1.65)之前出现“missing”检验，之后出现“surplus”。前5名和非前5名期刊的模式相似，并且随着时间的推移，模式没有明显的变化。我们还发现，在我们的经济学期刊检验样本中，p-hacking现象比在政治学和社会学等其他学科中发现的要少得多。

我们使用三种方法来记录p-hacking的差异，所有这些方法都将准实验方法与基准随机对照试验进行了比较。Ravallion 等人(2018年)观察到，随机对照行实验已被广泛视为比较观察结果的金标准。Imbens (2010)断言，"随机化实验在证据层次中占据特殊位置，即在最顶端。

首先，我们检验测试统计数据出现在常规统计阈值之上或之下的概率的不连续性。如果测试统计的潜在分布(对于任何方法)是连续的和无限可微的，任何超过阈值的结果surplus都被视为发表偏倚或p-hacking的证据。我们发现工具变量和双重差分统计数据在一星和两星显著性阈值附近分布不均匀。在阈值的10%内(1.76 < z < 2.16)，显著性工具变量测试统计比非显著性测试统计多18%。对于双重差分来说，这一数字要高出25%。相比之下，RDD只多了3%，而RCT的统计显著性测试比非显著性测试要少。

其次，我们应用卡尺测试（caliper test）。卡尺测试也侧重于p值的分布，接近任意显著性阈值。我们发现，在使用工具变量的文章中具有边际显著性的测试比例比随机对照试验的47%高出约10个百分点。相比之下，我们没有发现任何证据表明在RDD文章中有边际显著性的测试部分明显高于随机对照试验。

一个潜在的解释是，不同的作者或领域可能或多或少地倾向于p-hacking，或者可能或多或少地依赖于四种方法之一。例如，Brodeur等人(2016年)提供了暗示性的证据，表明经验较少的研究人员平均而言会进行更多的p-hacking。我们的结果显示，对作者特征(如经验和机构排名)的控制不会对结果产生影响，这表明选择作者使用特定的方法不太可能驱动我们的结果。纳入研究领域和期刊固定效应减少了工具变量和RCT估计之间的差距，但他们的差距仍然很大且呈现正向显著性。当纳入研究领域和期刊固定效应后，使用DID的估计结果与作为基准的RCT常规水平没有显著差异。

第三，我们扩展了Brodeur等人(2016)的方法，通过将每种方法观察到的测试统计分布与我们在没有p-hacking和发表偏倚的情况下预期的反事实分布进行比较。结果与我们以前的发现一致：不同的方法之间测试不一致的程度有很大的不同。大约16%的统计上不显著的工具变量估计结果是“缺失的”，后来却被发现具有统计显著性。相比之下，随机对照试验的误差为工具变量估计的十分之一，约为1.5%。

将使用每种方法发表文章的研究机构视为不同的文献，我们的结果表明，工具变量和(在较小程度上)双重差分比那些基于RCT和RDD的机构有更多的p-hacking和/或选择性发表。这自然会引出为什么我们会发现不同方法之间的差异的问题。虽然我们表明作者和文章特征并不重要，但另一个潜在的解释是，一些方法为研究人员提供了不同的自由度。例如，当使用像工具变量这样的非实验性方法时，研究人员在许多方面行使酌处权，这可能会影响统计显著性。关于工具变量的第一阶段，我们记录了第一阶段F统计数据相当大的过度代表性（刚刚超过常规阈值10）。有趣的是，第二阶段的p-hacking和第一阶段的强度有关。弱工具变量的第二阶段结果在传统阈值附近具有高得多的z统计比例。我们还提供了证据，表明部分依从性随机对照试验的工具变量估计结果比观察性研究的工具变量估计结果存在更少的p-hacking现象。

对我们主要观察结果的另一个潜在解释是，编辑和/或审稿人对无效结果的态度随着方法的不同而有系统地变化。例如，如果使用RCT方法但出现了非显著结果，编辑或审稿人可能会有更多的容忍度。我们通过比较每篇文章的出版版本和早期工作论文版本中的测试统计分布来研究评审过程的作用，并没有发现有显著的差异。

下载这篇文章细读一下，挺有收获的。

关于一些计量方法的合辑，各位学者可以参看如下文章：①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向，⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面，咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑！，②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授，③Python, Stata, R软件史上最全快捷键合辑！，④关于(模糊)断点回归设计的100篇精选Articles专辑！，⑤关于双重差分法DID的32篇精选Articles专辑！，⑥关于合成控制法SCM的33篇精选Articles专辑！⑦最近80篇关于中国国际贸易领域papers合辑！，⑧最近70篇关于中国环境生态的经济学papers合辑！⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑！⑩最近50篇使用系统GMM开展实证研究的papers合辑！

拓展性阅读：①"实证研究13篇"功夫秘笈, 中青年学者研究必备锦囊！① 关于各种因果识别方法的120份经典实证文献汇总”，② 哈佛大学新修订完成的因果推断经典大作免费下载！附数据和code，③因果推断的统计方法总结, 177份文献，④政策评估的计量方法综述, 包括最新因果推断方法，⑤在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献，⑥ 看完顶级期刊文章后, 整理了内生性处理小册子，⑤工具变量精辟解释, 保证你一辈子都忘不了，⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征，⑧关于双重差分法DID的32篇精选Articles专辑！⑨关于(模糊)断点回归设计的100篇精选Articles专辑！⑩匹配方法(matching)操作指南, 值得收藏的16篇文章等，⑪MIT广为流传的政策"处理效应"读本，⑫DID的研究动态和政策评估中应用的文献综述，⑬最新政策效应评估的四种方法，⑭政策效应评估的基本问题。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

计量经济圈组织了一个计量社群，有如下特征：热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此，建议积极进取和有强烈研习激情的中青年学者到社群交流探讨，始终坚信优秀是通过感染优秀而互相成就彼此的。

AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚！

相关推荐