Everything has been thought before, but the problem is to think of it again. -- Johann Wolfgang von Goethe实证研究的第一步就是选题,即选择研究的题目。对于刚起步的研究者,常常不知如何选题。研究者通常知道自己想要研究的领域 (比如,经济增长),但这还不是一个具体的 “研究问题” (research question)。对实证分析而言,研究问题通常是有关 “ X 对 Y 有何作用” 之类的因果关系。如果想研究 “家庭联产承包责任制对农业经济增长的作用”,就更具体了,此处 X 指 “家庭联产承包责任制”,而 Y指 “农业经济增长” 。当然,实证研究也可以只有 Y 而没有 X,比如对于某个统计指标 Y 的测算;但纯粹描述性的研究已比较少见。研究问题可以来源于理论 (比如,检验资产定价模型 CAPM 是否成立),也可来自对经济现象的观察 (比如媒体报道、社会调研);可以研究某政策的效应 (比如新劳动法对失业率的影响),也可以对文献中已有论文进行改进。如果没有任何研究想法,则建议先浏览一些经济学的顶级期刊。比如,经济学中文期刊的 “四大金刚”,即《经济研究》、《经济学(季刊)》、《世界经济》、《管理世界》;以及经济学英文期刊的 “Top 5”,即 American Economic Review,Econometrica,Journal of Political Economy,Quarterly Journal of Economics,Review of Economic Studies。这些顶级期刊都是经济学的一般性期刊 (general interest journal),涵盖经济学的各个领域。如果确定研究经济学的某个领域,比如金融学,还可关注《金融研究》等专业期刊 (field journal)。浏览这些期刊中的论文 (通常技术性较强,故未必从头读到尾),可大致知道当前的经济学者都在研究哪些前沿问题,取得了哪些成果,还有哪些未解之谜;进一步,可以评估他 (她) 们的研究方法是否可靠,以及可能的改善空间。如果能提出好的研究问题,也许你的研究就成功了一半。什么是好的研究问题呢?总的来说,研究问题越具体、越有趣、越新颖、越有可行性,则越好!(1) 具体:简单来说,在以上“ X 对 Y 有何作用” 的句型中,应能明确 X 与 Y 具体是什么。(2) 有趣:你的研究问题为什么重要?别人会感兴趣吗?为什么我们要在乎你的问题 (Why should we care)?知道问题的答案后,能影响人们对世界某方面的看法吗?(3) 新颖:论文的核心价值在于其创新性,即做出了文献中所没有的边际贡献。这种边际贡献可以是研究了新的现象、使用了新的 (更好的) 计量方法,或者使用了新的数据集。做研究的过程是创造新知识的过程,在本质上不同于学习已有 (旧) 知识的过程。(4) 可行:即使你的研究问题很具体、很有趣、很新颖,如果找不到相应的数据,则不可行。对于刚开始选题的学生而言,似乎自己能想到的题目,都已被别人做过了。其实未必。要想做出新的边际贡献,当然可在前人的基础上,继续拓展与改进 (改进计量方法,增加变量,使用新数据等) 。另一方面,也可以完全撇开前人,去研究全新的现象。比如,20世纪70年代末中国农村实行了家庭联产承包责任制改革,这是史无前例的。到了1990年左右,就涌现出一批研究农村改革对中国农业产出影响的论文 (比如,Lin, 1992)。又比如,2014年11月开始实行上交所与港交所之间的 “沪港通”。假以时日 (有了足够的数据后),就可以研究沪港通对中国证券市场的影响。即使是前人已经研究过的现象 (太阳底下没有新的事物),也可用新眼光、新视角去观察。重要的是,要有敏锐的观察力,并 “像经济学家那样去思考” (Think like an economist)。当然,对于刚起步的新手,应尽量避免已经被研究得很烂、或过于富有挑战性的题目。显然,备选的研究问题越多越好,因为能 “存活” 下来的研究想法通常不多。
4、探索性研究
If I have seen further it is by standing on the shoulders of giants. -- Isaac Newton尽信书,则不如无书。 --《孟子 · 尽心章句下》有了潜在的研究问题后,首先需要进行初步的 “探索性研究” (exploratory study),看看它是否具有新颖性与可行性。比如,通过查找文献,考察别人是否已经做过类似研究,并大致了解数据是否可得。(1) 通过文献回顾评估选题的新颖性论文贵在有新意。假设你找到了一个具体、有趣而可行的研究问题,但它究竟有多少新颖性,这就不可避免地需要查阅文献,看看文献中是否已有类似研究。如果别人已做过很相似的研究,则通常须更换题目;除非另辟蹊径,找到很不相同的方法或数据。对于中文论文,可在 CNKI (China National Knowledge Infrastructure) 中搜索。对于英文论文,可在 JSTOR (Journal Storage) 或 EconLit with Full Text (美国经济学会) 输入关键字进行搜索;二者均全文收录了许多经济类英文期刊,但前者有几年滞后。对于二者未覆盖的经济类期刊,可通过一些主要出版社 (集团) 搜索,比如 Elsevier Science Direct, Springer Link, Taylor & Francis, Wiley 等。某些工作论文则可通过百度或谷歌搜索。以山东大学图书馆为例,其电子资源的第一页提供了如下资源 (参见下图):
山东大学图书馆电子资源首页什么时候开始看文献,即看文献的时机,也很重要。如果从一开始就大量地阅读文献,则可能被文献所淹没,望洋兴叹,自觉渺小。更好的方法是,当自己有了一定的想法之后,再去系统地看文献。这样,才会知道自己究竟要看什么,也更能带着批判的眼光去看。另外,阅读文献的态度也十分重要。虚心地从经典论文中汲取营养,才能站在巨人的肩膀上,但仍应带着某种批判性的眼光。事实上,由于经济现象的复杂性 (经济学还只是软科学),任何论文都有一定缺点 (比如,忽略了某些可能重要的因素),也都有可以改进的空间 (甚至可能推翻作者的结论),故不必太迷信 “权威”。既然经济学还不是科学,获得诺贝尔奖的经济学家可能持有相反的观点,那么又哪来的权威呢?重要的是,使用逻辑与实证的方法对不同的观点进行甄别与质疑。如果认为前人所做的研究已经十全十美,你都赞同,那么,你怎么可能做出新的边际贡献呢?(2) 确定所需数据是否可得在正式开始研究之前,还应大致知道所需要的数据不仅存在,而且可以得到。数据从何而来?一般来说,数据要么是别人提供的 (比如统计局),要么是自己收集的 (比如问卷调查)。寻找数据可以从网络搜索开始 (比如谷歌或百度),也可以询问专家或同行。如果确实不知道该从哪里找数据,还可关注文献中同类研究的数据来源,然后溯本及源。因此,阅读一定文献之后,就应该基本了解该研究领域的常见数据来源了。近年来,一些国际期刊已在其网站公开了发表论文中所用的数据集与估计程序 。
5、收集与整理数据
从数据的来源格式来看,数据可分为电子版与非电子版两大类。对于非电子版的数据,需耐心输入数据 (通常先输入Excel表,再导入Stata中),并注意检查,防止出错。即便下载电子版数据,也应检查可能存在的错误。实证研究的关键材料乃是数据。如果数据质量不高,则 “巧妇难为无米之炊”。无论多么高深的计量方法,如果原始数据质量有问题,也只能是 “垃圾进去,垃圾出来” (garbage in, garbage out)。Zvi Griliches 在 1994 年给美国经济学会做的主席演讲 (presidential address) 指出,由于经济学家不够注意数据的来源及产生过程,经常错误地解释数据,导致研究的进展缓慢;如果不提高数据质量,计量理论方面的重大进展将无用武之地。为此,将数据导入统计软件后,需仔细察看数据 (inspect the data)。一个常见误区是,研究者只知进行回归,却不去熟悉原始数据 (raw data),或增加对数据的感觉 (get a feel for the data)。察看数据的常见方法为,计算变量的主要统计特征 (summary statistics),包括均值、最大值、最小值、标准差、相关系数等,并根据经济常识判断它们是否合理。比如,虚拟变量的最小值与最大值必然为 0 与 1;否则,此变量有误。如果数据有时间维度 (比如时间序列或面板数据),还可画时间趋势图。如果发现在某个时点上的变量取值异常波动,则应考察此数据是否有误;即使数据无误,也应考虑异常波动的原因。总之,在察看数据的过程中,主要观察数据中是否存在不一致 (inconsistent) 的地方;比如,出现了不可能、不现实或可疑的取值。如果发现,则要进行处理 (比如,可能是数据输入错误),这被称为 “数据清理” (data cleaning)。对于大多数从事应用研究的学者而言,主要是使用别人 (比如统计局、世界银行) 提供的数据。即便如此,也应该对数据的质量有一个清醒的判断,并使用相应的计量方法 (至少在做出实证研究的结论时,应考虑数据质量的影响)。在使用别人提供的数据时,还应注意其定义及统计口径,是否是与理论模型中的变量相对应。比如,中国的失业率指的是 “城镇登记失业率”,其统计口径与标准教科书中以及西方国家的失业率概念有很大不同。对于计量的初学者来说,与真实数据打交道也是加深对计量经济学理解的重要途径。只有弄脏你的手 (get your hands dirty),才能真正学会做实证研究。
有了计量模型与数据之后,即可根据数据类型与特点,选择合适的计量方法。比如,被解释变量为虚拟变量,则可使用 Probit 或 Logit;如果是面板数据,则应考虑固定效应、随机效应、时间效应等;如果是时间序列,则须先判断是否含单位根,再决定使用相应的计量方法。对于一般的数据,通常先做 OLS,看看结果,作为一个参照系。做完 OLS 后,可以画残差图,大致看看扰动项是否符合经典假定,然后进行严格的检验。如果有所违背 (比如,存在异方差、自相关),则做相应的处理(使用稳健标准误或 GLS)。对于时间序列,还可检验是否存在结构变动 (邹检验,Chow test)。另外,应该对数据的质量进行检验,判断是否存在多重共线性、极端值、弱工具变量等,并做相应的调整。由于受数据可得性 (data availability) 的限制,遗漏变量几乎不可避免。因此,很有必要在实证论文中对此进行讨论。不外乎以下两种情况。第一,存在遗漏变量,但与解释变量不相关 (需要说明为什么不相关),故可以不做处理。第二,存在遗漏变量,且与解释变量相关,则必须进行处理,例如增加控制变量、寻找代理变量、使用工具变量、使用面板数据等。另一常见问题是内生解释变量。此时,一般需找到有效的工具变量才能得到一致的估计。由于面板数据可以在一定程度上克服遗漏变量问题,故比横截面数据或时间序列更有说服力。因此,如果可以获得面板数据,则应尽力争取。比如,对于中国的宏观变量,如果使用全国的时间序列,则一般样本容量较小。此时,可考虑收集省际面板 (provincial panel) 的相应数据。大多数的实证论文都希望说明 X 对 Y 的因果作用。而从回归分析的相关关系升华到因果关系,是很大的飞跃,需要使用适当的计量方法来识别这种因果关系。总之,在这部分应该说明,为什么所用的计量方法是最恰当的。计量经济学的理论总是建立于一些理想化的假定基础之上,而现实的经济数据通常或多或少地不符合这些假定。因此,尽管计量理论是可以严格证明的一门科学,但实证研究在一定程度上却是一门艺术,常需要在理论与现实之间找到适当的妥协 (be prepared to compromise)。
8、解释回归结果
There are two things you are better off not watching in the making: sausages and econometric estimates. -- Edward Leamer使用计量方法估计模型后,计算机软件 ( 比如 Stata ) 将输出相应的计量结果。此结果可能较长,包含密密麻麻的表格与数字。如果你尝试了各种不同的计量方法与解释变量 (alternative specifications),则结果就会更复杂。如何看这些结果?简单地说,只能用一个字一个字地看,直到看明白为止。当然,也有诀窍。计量结果可能很复杂,但真正重要的信息通常不多,比如回归系数 (含符号)、 p 值,以及样本容量、拟合优度等。以一元回归为例 (工资对数对教育年限回归) ,回归结果参见下图。
工资对数对教育年限的回归结果
在上图的回归结果中,变量 s (教育年限) 的回归系数符号为正 (与经济理论相符),系数估计值为 0.0966245, p 值为 0.000 (在 1% 水平上具有统计显著性),样本容量为 758,而拟合优度 为 0.2527 (教育年限可解释工资对数约四分之一的变动)。在上图中,左上角的残差平方和、右下角的置信区间,乃至常数项等信息,基本可以不关心 (除非有需要)。在解释回归系数时,还应注意区分统计显著性与经济显著性。“统计显著性” (statistical significance) 主要通过 p 值来考察。如果 p 值小于或等于 0.05,则意味着该系数在统计上显著地不等于零;反之,则在统计上不显著,在统计上可将此系数视为零 (不存在)。“经济显著性” (economic significance) 主要通过系数的绝对值来考察,须特别注意变量的取值单位。在上例中,解释变量教育年限 s 的单位为年,而被解释变量工资对数 lnw 可解释为工资的百分比变化,故 s 的回归系数为 0.0966245 意味着,每增加一年教育,未来工资收入将提高 9.66%,具有很高的经济显著性 (可能过高了)。反之,假如 s 的回归系数为 0.01 或 0.001,则意味着每增加一年教育,未来工资收入只会上升 1% 或 0.1%,显然在经济意义上很不显著。此时,统计上显著而经济上不显著,则意味着解释变量对被解释变量的影响很小 (经济上不显著),尽管这种影响被估计得很精确 (统计上显著)。类似地,在进行计量检验时 (比如,豪斯曼检验),Stata 可能输出很多结果,但最需要关注的只是原假设以及 p 值;因为知道二者就可以进行检验了,而其余信息都是细节。研究者通常花费较长时间收集与整理数据。将数据导入Stata,然后输入相应的回归命令,则是 “见证奇迹的时候” (moment of truth)。如果关键解释变量兼具统计与经济显著性,符号也与理论预期一致,而其他控制变量的符号与显著性也大体与预期相符,则会感到十分欣慰,过去收集整理数据的辛劳也都值了。但有时,所得计量结果未必尽如人意,比如关键解释变量不显著,甚至符号与预期相反。此时应怎么办呢?大致来说,出现这种情况,可能有如下三种原因。(1) 使用计量方法不当。比如,在上述一元回归中,显然遗漏了许多变量,可能存在遗漏变量偏差,导致 OLS 估计不一致。更一般地,如果存在内生性而未加以处理,将导致不一致的估计,使得本应显著的变量变得不显著。(2) 数据质量有问题。如果数据存在较大的度量误差,所用代理变量与真实变量相差较远 (由于真实变量不可观测),或者数据输入中的人为错误,都有可能影响估计的一致性。(3) 经济理论有问题。在排除了以上两种可能性之后,最后一种可能性是,经济理论不正确。经济理论所预期的某种效应可能不存在;或者同时存在其他作用机制,使得净效应的符号相反。实证研究的目的之一就是检验经济理论。如果发现已有理论与经验证据不符,则说明此理论尚有改进空间,甚至需要放弃。正如林毅夫 (2001, p. 75) 所指出:如果发现理论推论和我国经验事实不一致,要坚持的不是现有的理论,而是进一步去了解我国的经验现象, 然后, 根据经验现象构建一个可以解释这个现象的理论。所以, 当发现这种不一致时, 不要死抱理论, 成为现有理论的俘虏, 也不要在巨人的面前而感到自己渺小。其实,这正是对理论发展做出贡献的绝好机会。在计量实践中,研究者经常根据计量结果而调整模型,以期得到更为理想的结果,并且只在论文中汇报最佳的结果,而将寻找此结果的过程隐去。这实际上是 “数据挖掘” (data mining) 的一种形式。数据挖掘既有成本 (缺点),也有收益(优点)。数据挖掘的优点是,可对数据进行各种 “实验”,以期揭示数据中的某种规律性,发现模型设定的错误,以此改进理论或计量模型。数据挖掘的缺点则是,由于它根据数据特征来设定计量模型,故模型设定由数据产生,如果再用此数据去检验由它产生的模型,就不是客观的检验,由此导致偏差。事实上,一定程度的数据挖掘是不可避免的,而这两种形式的数据挖掘的界限并不清晰,正如 Heckman (2000) 指出,“尽管使用数据来检验受到该数据启发的理论存在严重的问题,但如果拒绝从数据中学习并修改理论,则会导致更严重的问题” 。解决数据挖掘所带来的偏差的方法之一是进行稳健性检验,而不是仅汇报最佳的结果。
We have to learn...that the prime virtue of any econometric procedure is robustness. -- Robert Solow为了使用特定的计量方法,研究者通常需要做一系列的假定。但问题是,论文的主要结果是否对这些假定很敏感?为此,有必要放松论文的某些假定,看结果是否稳健或基本不变,这称为 “稳健性检验” (robustness check) 或 “敏感度分析” (sensitivity analysis)。比如,通过改变样本区间 (或去掉极端值)、函数形式、计量方法、控制变量、变量定义、数据来源等,来考察计量结果的稳定性。在计量实践中,研究者通常会通过数据挖掘,找到 “最佳” 的计量模型。如果仅汇报此最佳模型,则会导致偏差。因此,有必要适当地改变模型的设定,比较其主要结果的变化。显然,只有稳健的结果才有说服力,故稳健性检验已成为高质量实证论文不可或缺的一部分。source:计量经济圈