模型诊断:广义信息矩阵检验
文献来源:Gary King& Margaret E. Roberts (2015). How Robust Standard Errors Expose Methodological Problems They Do Not Fix, and What to Do About It, Political Analysis, 23:159–179
作者简介:Gary King,哈佛大学Albert J. Weatherhead III校级教授,著名定量方法学家;Margaret E. Roberts,加州大学圣迭戈分校政府系副教授。
Gary King
Margaret E. Roberts
作者认为,在错误设定模型的情况下运用各种'稳健'技术来估计标准误的现象非常常见,但是这种使用方式却往往南辕北辙。稳健标准误在统计理论中非常重要,它们可以在特定情况下拟合模型的特定部分。然而,研究者经常不加判断地使用默认设定,而不考虑在错误模型设定的情况下可能造成的严重后果。此外,经典标准误和稳健标准误的差异是模型设定错误的直接体现。
这一问题不仅仅是提升统计推断力,也不是文献在高水平的统计抽象理论下能否很好适配的问题,而是已经出版的大量文章均存在不同水平的模型设定错误,这种错误是可以不需要任何额外假定而继续深入探索的。以稳健标准误的一个简单而广为人知的案例为例:对回归系数的极大似然估计估计是一致且无偏的,即使随机部分和方差函数是错误的,导致有偏的经典标准误,只要其他假设条件成立,稳健标准误依旧是一致的。但是这种估计的优势也会有一定的代价。例如,只有部分研究者感兴趣的变量能够得到无偏估计,但是其他变量则不能保证,这就导致了模型在模拟现实情况的准确性上存在问题。其次,就算经典标准误与稳健标准误的估计不一致让研究者意识到模型的一部分存在问题,也无法保证模型的其他部分就肯定正确。
如果经典标准误和稳健标准误估计不一致,研究者可以使用一些广为人知的模型诊断方法来调整统计模型,如果调整后的诊断结果较好,那么上述两种估计方法就接近一致了(还不一致就继续调整)。作者强调,这里并不是说推荐研究者放弃稳健标准误的方法,而是采用更好的诊断以使模型拟合度更高。因此,作者在文章接下来的部分中对稳健标准误的定义,错误模型设定以及实例做出分析,为建立统计理论和实际应用建立起沟通。
稳健标准误的定义
我们常用的线性模型均假定方差服从均值为零,方差为固定值(即方差齐性假设)的条件分布,这时候无论是最小二乘估计还是最大似然估计都能够得到回归系数的一致且无偏估计。但是如果数据并不满足方差齐性条件,那么尽管对回归系数的估计依然是无偏的,但是却是无效的,因为估计量的不确定性(也就是方差)并不和方差齐性条件下的模型估计是一致的。此外,其他回归系数的估计也可能因为这一问题而导致估计的有偏,这一问题并没有得到教科书的重视。
如果将存在异方差问题的矩阵Σ变成
,这样的话无论样本量大小如何,这个矩阵始终是一个固定大小的矩阵,因此可以用残差平方来替代方差作为一致且无偏的估计量,也即所谓的White稳健标准误(译者注,这个标准误仅考虑异方差问题,并没有考虑模型自相关问题)。同时,稳健标准误也会有其他的一般化的形式,以适应其他的模型,例如面板数据等。
稳健估计的优势与劣势
模型有时候有用,却永远不是绝对正确的。如果研究者意识到他们的模型设定存在问题,他们就应该使用那些来自稳健标准误的信息来优化统计模型。当模型的设定存在错误,导致对回归系数的点估计是无偏的,但有效性存在问题时,如果研究者采用稳健标准误的调整,就会产生其他问题。由于整个模型的随机部分被忽略,致使任意基于结果变量预测分布的目标参数都无法得到有效地估计,同时我们也无法在没有结果变量信息的情况下进行进一步的模型诊断。
总的来说,如果经典标准误和稳健标准误不一致,可能是模型设定的问题,这或许来自于遗漏变量导致的偏误,亦或者是所收集的数据本身的异方差性。有的研究者就会消极地认为任何包含(或者不包含)稳健标准误的统计模型都是毫无希望的。因此作者建议,研究者应该在此情况下进行适当的诊断检验,重新设定模型以解决相关问题。同时,因为这两种标准误的计算并不复杂,而且能够帮助观察整个推断过程的准确性,故而不应该直接跳过这一步。
广义信息矩阵检验
既有的信息矩阵检验要求大样本量以接近实际分布,而且对于不同的参数模型来说,尽管都是适用的,但是模型设定也存在差异,因此这种检验方法的形式并不统一。为了在经典标准误和稳健标准误之间进行更好的决策,作者基于已有的信息矩阵检验理论,对那些有限小样本的模型提出一个应用范围更广,拟合效果更佳的广义信息矩阵检验方法(GIM)
是经典方差矩阵,其中P是海塞矩阵。
是稳健方差矩阵,M是梯度的平方,如果M+P的期望为0 的话,则两个矩阵相等,模型在这一方面无设定问题。假设一个新统计量
,d是M+P期望值的似然累积向量,V是渐进方差矩阵,通过参数bootstrap进行估计。新统计量服从卡方分布,可以直接用来计算p值进行检验。
作者虚拟一个数据集来对新方法进行检验。作者从一元正态分布(细节详见原文)抽取100个样本量为200的样本并进行GIM检验。结果如图所示
从图中可以看出,当模型设定无误时,p值接近均匀分布。模型设定错误程度越严重,p值偏离越大,因此能够有效检定出由经典标准误和稳定标准误的差异所导致的模型设定错误问题。(这也是这一方法的局限,即仅能检测出这一类模型设定错误)。
为了探究更深的方法细节,作者进一步模拟数据来分析GIM方法的特征。
上面三幅图分别是模型设定过程中出现的不正确的分布假设、不正确的函数形式以及不正确的随机部分所导致的模型错误以及不同方法对模型诊断的比较。从图中可以看出,随着模型设定的偏差越大,经典标准误和稳健标准误的差异(蓝点)也越大,GIM检验拒绝率(红点)越高。
方法应用与分析再现
首先作者重复了Neumayer(2003)的第四个模型,这一模型认为来自各种地区开发银行和联合国机构的多边援助更青睐人口较少的国家。原始的分析是使用多边援助对人口的对数、其平方、GDP等变量进行线性回归。原始分析的稳健标准误和经典标准误存在非常明显的差异。作者观察到多边援助的分布呈现非常明显的偏态,因此作者做了Box-Cox转换,将偏态分布转换为近似正态分布。利用转换之后的数据再次拟合模型,两种标准误的差异就很小,能够通过GIM检验。
其次,作者又重复了Buthe and Milner(2008)的第四个模型,该理论认为拥有国际贸易协定能够提高国外对本国的直接投资。模型使用时间序列截面数据以及国家固定效应的线性回归。模型的两种标准误也存在显著的差异,这是由于他们没有处理好自相关问题,数据存在较大的异方差性。下图显示了原始数据和调整后数据的残差,显然,调整后的残差诊断结果表现更好,第二张图说明不同处理方式下两种标准误的差异。
最后,作者重复了Dreher and Jensen(2007)的第七个模型以说明稳健标准误作为一种模型诊断方法的应用。此模型认为美国会通过影响国际货币基金组织对一些国家的贷款来干涉与威胁该国当权者的成功当选。泊松模型的两种标准误也接近两倍的差异。这份数据存在两个问题,其一,数据过度离散(overdispersed);其二,数据存在理论上的截断(truncation)。因此作者采用负二项回归,此外将理论上的截断考虑进模型。调整过后的模型诊断表明新模型更为稳健。
结论
综上所述,在研究过程中,如果稳健标准误和经典标准误之间存在差异过大,则证明模型设定上存在一定的问题。此时,研究者需要通过各种模型诊断来修正与调整模型。也正因如此,稳健标准误可以作为一种模型诊断的方式,当模型设定无误时,两种标准误应近似相等,而作者开发的ω指标在进行相关检验时是一个不错的选择。
编译:刘天祥