方法论衡 | King & Roberts:稳健标准误真的“稳健”吗?
文献来源:Gary King & Margaret E. Roberts (2015). How Robust Standard Errors Expose Methodological Problems They Do Not Fix, and What to Do About It, Political Analysis, 23:159–179.
作者简介:Gary King,哈佛大学政府系Albert J. Weatherhead III讲席教授;Margaret E. Roberts,加州大学圣迭戈分校政治学系副教授。
编者按:很多研究使用稳健标准误进行参数估计,并认为“稳健”之后万事大吉。Gary King和Margaret E. Roberts在这篇文章中指出了稳健标准误使用的一个误区。稳健标准误并不是万能灵药,尽管它能够提升估计的有效性,但是这需要在估计无偏的情况下才能起到这种锦上添花的作用。如果稳健标准误和经典标准误不一致,本文认为研究者千万不能直接选择稳健标准误,而应对既有模型进行诊断,在满足相应的模型假设之后再行抉择。本文是相关定量研究的一个警示,即研究者更应关注模型本身而非在错误之中寻找不存在的正确。
本文作者:Gary King(左)与Margaret E. Roberts(右)
在量化研究中,运用各种“稳健”技术来估计标准误的现象非常常见,但是大多数情况下“稳健方法”并不“稳健”,这是由于部分研究的模型设定存在错误,故而这种使用方式期望得到稳健的估计,结果却南辕北辙。稳健标准误在统计理论中非常重要,它们可以在特定情况下拟合模型的特定部分。然而,如果研究者不加判断地使用默认设定,而不考虑是否存在错误的模型设定,就会造成严重的后果。因此,采用稳健标准误对参数的估计更为保守,但是如果经典标准误和稳健标准误存在差异,那么往往是模型设定错误的问题。
应用稳健标准误虽然能够提升统计推断力,帮助理论文献与高水平的统计抽象理论更好地适配,但是却不能解决模型设定错误问题,然而这时已经出版的大量文章所普遍存在的。这种错误可以不需要任何额外假定而继续深入探究。以稳健标准误的一个简单而广为人知的案例为例:对回归系数的极大似然估计估计是一致且无偏的,即使随机部分和方差函数是错误的,导致有偏的经典标准误,只要其他假设条件成立,稳健标准误依旧是一致的。但是这种估计的优势也会有一定的代价。例如,只有部分研究者感兴趣的变量能够得到无偏估计,但是其他变量则不能保证,这就导致了模型在模拟现实情况的准确性上存在问题。其次,就算经典标准误与稳健标准误的估计不一致让研究者意识到模型的一部分存在问题,也无法保证模型的其他部分就肯定正确。
如果经典标准误和稳健标准误估计不一致,研究者可以使用一些常用的模型诊断方法来调整统计模型,如果调整后的诊断结果较好,那么上述两种估计方法就接近一致(还不一致就继续调整)。作者强调,这里并不是说推荐研究者放弃稳健标准误的方法,而是采用更好的诊断以使模型拟合度更高。因此,作者在文章接下来的部分中对稳健标准误的定义,错误模型设定以及实例做出分析,纠正已有文献对稳健标准误的错误理解和使用。
稳健标准误的定义
我们常用的线性模型均假定方差服从均值为零,方差为固定值(即方差齐性假设,homoscedastic)的条件分布,这时候无论是最小二乘估计还是最大似然估计都能够得到回归系数的一致且无偏估计。但是如果数据并不满足方差齐性条件,那么尽管对回归系数的估计依然是无偏的,但是却是无效的,因为估计量的不确定性(也就是方差)并不和方差齐性条件下的模型估计一致。此外,其他回归系数的估计也可能因为这一问题而导致估计的有偏,这一问题并没有得到教科书的重视。
以简单线性模型为例,一般的标准误矩阵是对角矩阵,对角线上的元素全部相等。常用的极大似然估计(MLE)方法就是基于上述方差矩阵对参数进行估计。但是如果方差齐性的假设不满足,那么极大似然估计方法所得到的方差就是错的。根据White(1980)的研究,如果将存在异方差问题的方差矩阵Σ前后分别乘自变量矩阵及其转置矩阵,这样的话无论样本量大小如何,这个矩阵始终是一个固定大小的矩阵,因此可以用残差平方来替代方差作为一致且无偏的估计量,也即所谓的White稳健标准误(译者注,这个标准误仅考虑异方差问题,并没有考虑模型自相关问题)。同时,稳健标准误也会有其他的一般化的形式,以适应其他的模型,例如面板数据等。
稳健估计的优势与劣势
模型有时候有用,却永远不是绝对正确的。如果研究者意识到他们的模型设定存在问题,他们就应该使用那些来自稳健标准误的信息来优化统计模型。稳健标准误的优势在于,如果因为异方差问题而导致稳健标准误和经典标准误之间存在差异,在点估计无偏(尽管低效)的情况下,更为保守的稳健标准误能够比经典标准误提供更为高效的估计。
但是当模型的设定存在错误(或许来自于遗漏变量导致的偏误,亦或者是所收集的数据本身的异方差性),尽管研究者采用稳健标准误的调整,依然会产生问题。由于整个模型的随机部分的错误设定被忽略,致使基于结果变量预测分布的目标参数的估计都是有偏的,这是尽管稳健标准误能够提高估计有效性,但是却没有任何意义。同时,我们也无法在没有结果变量信息的情况下进行进一步的模型诊断。
故而作者建议,研究者应该在此情况下进行适当的诊断检验,重新设定模型以解决相关问题。同时,因为这两种标准误的计算并不复杂,而且能够帮助观察整个推断过程的准确性,故而不应该直接跳过这一步。
广义信息矩阵检验
既有的信息矩阵检验要求大样本量以接近实际分布,而且对于不同的参数模型来说,尽管都是适用的,但是模型设定也存在差异,因此这种检验方法的形式并不统一。为了在经典标准误和稳健标准误之间进行更好的决策,作者基于已有的信息矩阵检验理论,对那些有限小样本的模型提出一个应用范围更广,拟合效果更佳的广义信息矩阵检验方法(GIM)
广义信息矩阵检验方法的原理是对稳健标准误和经典标准误的差异进行检验比较,设定一个新的统计量,并对这个统计量进行估计并与0进行比较,得到估计的p值,和常用的理解一样,如果p值小于0.05,那么证明二者存在显著差异,即模型设定可能存在问题。
作者虚拟一个数据集来对新方法进行检验。作者从一元正态分布(细节详见原文)抽取100个样本量为200的样本并进行GIM检验。结果如图所示
从图中可以看出,当模型设定无误时,p值接近均匀分布。模型设定错误程度越严重,p值偏离越大,因此能够有效检定出由经典标准误和稳定标准误的差异所导致的模型设定错误问题。(这也是这一方法的局限,即仅能检测出这一类模型设定错误)。
为了探究更深的方法细节,作者进一步模拟数据来分析GIM方法的特征。
上面三幅图分别是模型设定过程中出现的不正确的分布假设、不正确的函数形式以及不正确的随机部分所导致的模型错误以及不同方法对模型诊断的比较。从图中可以看出,随着模型设定的偏差越大,经典标准误和稳健标准误的差异(蓝点)也越大,GIM检验拒绝率(红点)越高。
方法应用与分析再现
首先作者重复了Neumayer(2003)的第四个模型,这一模型认为来自各种地区开发银行和联合国机构的多边援助更青睐人口较少的国家。原始的分析是使用多边援助对人口的对数、其平方、GDP等变量进行线性回归。原始分析的稳健标准误和经典标准误存在非常明显的差异。作者观察到多边援助的分布呈现非常明显的偏态,因此作者做了Box-Cox转换,将偏态分布转换为近似正态分布。利用转换之后的数据再次拟合模型,两种标准误的差异就很小,能够通过GIM检验。
其次,作者又重复了Buthe and Milner(2008)的第四个模型,该理论认为拥有国际贸易协定能够提高国外对本国的直接投资。模型使用时间序列截面数据以及国家固定效应的线性回归。模型的两种标准误也存在显著的差异,这是由于他们没有处理好自相关问题,数据存在较大的异方差性。下图显示了原始数据和调整后数据的残差,显然,调整后的残差诊断结果表现更好,第二张图说明不同处理方式下两种标准误的差异。
最后,作者重复了Dreher and Jensen(2007)的第七个模型以说明稳健标准误作为一种模型诊断方法的应用。此模型认为美国会通过影响国际货币基金组织对一些国家的贷款来干涉与威胁该国当权者的成功当选。泊松模型的两种标准误也接近两倍的差异。这份数据存在两个问题,其一,数据过度离散(overdispersed);其二,数据存在理论上的截断(truncation)。因此作者采用负二项回归,此外将理论上的截断考虑进模型。调整过后的模型诊断表明新模型更为稳健。
编译:刘天祥 编辑:康张城
【政文观止Poliview】系头条号签约作者
你在看政观么