01近日,因为审稿,以及收到的审稿报告,想起一些话,说给大家听听。前两天,我将自己写的一份审稿报告和收到的一份审稿报告放在一起,在学生面前晒了晒。我对学生说,你们或早或迟,会成为审稿人,也会在各种报告会上批评别人的文章,那么,我希望你们记住两个 C 和两个 P:constructive、professional、careful、polite。审稿总是要批评的,批评是容易的,难的是建设性的批评。特别是对于实证研究,世人皆知,模型误设 (mis-specification)、度量误差 (measurement error)、内生性 (endogeneity) 是三个绕不过去的问题,从这三个角度去批评文章,基本不会错。但是,一份审稿报告如果只谈这三个方面的问题,怕是恰恰说明审稿人除了教科书之外,对所审的文章没有更深的理解。更重要的是,一篇文章的模型形式应基于理论与文献,变量的度量应该是在研究之前已经充分考虑的问题,内生性的解决并不容易,有经验的作者不会在这方面一点也不考虑。作为审稿人,我更愿意告诉作者这样一些信息:他有一个研究中闪亮的地方,他没有意识到;他遗漏了重要的文献;他可能能够找到某个数据,从而可以看看从 X 到 Y 的某个机制,甚至可以检验几种机制哪个更重要;或者,从 X 到 Y 的机制不是作者所说的那样,在历史和现实中,故事是另一种可能性,更接近真实的制度背景;我可能还会建议作者,在一篇学术论文中,不要将政策建议讲得那么多;我还会建议作者对于文章的引言部分换个写法,会使得他的工作更加重要和有趣……我会尽量要求自己所提的建议是可以做到的,从而使审稿意见具有 “建设性”。我不会对一篇研究收入差距对某个事物的影响的文章说,收入差距是内生的,你应该用实验数据去做,因为用实验方法来改变收入差距,不说是不可能的,也至少是不道德的。我也不会建议作者运用自然实验的数据来研究户籍的影响,因为我知道,随机地给农民工发放城镇户籍,这件事从来没有过。
顺便再说说理论和实证的关系。有人认为,必须要在实证前面加个数学模型才能将机制讲清楚。甚至认为,在统计相关性之前,加上个数学模型才可以确认因果关系。读者不妨自己统计一下,在经验研究性质的经济学论文中有多少比例的文章并没有一个数学模型。比较一下有数学模型的和没数学模型的论文就知道,不能简单地批评说,没有数学就是没有理论。即使没有数学,实证研究对于模型设定、变量选取等等,仍然需要依赖于 “理论”。但是,至少有两种情况,使得实证文章中并不需要写一个用数学表示的理论模型。第一,既有的理论已经很成熟,实证要做的,只是看从 X 到 Y 的净效应有多大,到底哪种机制是成立的;第二,实证所要看的机制实在是太直接,不需要用一个数学模型表述的理论,而这个有待检验的关系本身是否成立才是研究者关心的。比如说,如果我们想检验一下教育里的 “同群效应”(peer effect),即一个人的学习成绩是否受到其同学成绩的影响,这个看似简单的关系在实证检验中却非常难做,而且这个 “同群效应” 是教育经济学的基石。更广泛地来说,基于社会互动的人类行为的相互依赖性是社会经济学 (social economics) 的基石。那么,对于一个 X 到 Y 的统计关系,是否必须以一个数学表述的理论来作为其因果推论的前提呢?如果你的答案是肯定的,那么,我就要追问两个问题,对于一个统计上的 X 与 Y 的正相关关系,我们可以写一个 X 影响 Y 的理论,也可以写一个 Y 影响 X 的理论,我们是否仅以此就能确认在统计上的关系到底是 X 到 Y 的因果链,还是反过来?与利用某种实证研究策略(包括实验方法、IV、regression discontinuity、propensity score matching、DID 等等)看到了 X 对 Y 的影响相比,一个数学表述的理论加上 “从 X 到 Y” 的相关关系,是否更能用来确认 X 与 Y 之间谁因谁果?