统计计量 | 刘西川: 变量及指标选取应该注意的几个方面
本文转载自公众号刘西川阅读写作课
实证分析的核心是对假说的检验,检验假说依靠的工具主要是数据和计量模型。假说是对某种因果机理或机制的概括,它一般由两个变量组成,一个是因变量,另一个是自变量。从时间顺序来看,两个变量组成的关系是单向因果关系。实证分析就是,针对某个由自变量和因变量组成的假说,选取能表征这两个变量的具体指标并利用合适的数据和计量模型对这两个变量的因果关系进行估计和推断(当然,在实际操作中,研究者还会选择一些控制变量及其表征指标)。由此来看,能否选出合适和有效的指标来表征所要考察的因变量、自变量就至关重要了。
通常,文章中的变量及指标选取部分至少要做到:(1)依次交代因变量、自变量和控制变量的具体名称及含义,其中最重要的是因变量,这个常常被忽视了。(2)交代与因变量、自变量及控制变量相对应的指标,这些指标在所使用的数据中都是可观察的、可量化的。无论是变量还是指标,都需要给出其选择的依据,比如引用已有研究文献来做支撑。(3)要写出一种设计感,即为了检验因变量与自变量的因果关系,借助控制变量、计量模型和相关数据来做“实验”,检验所提出的假说。(4)要写出挑选感,即变量和指标都是选出来的,是在众多方案中挑选了与本研究最匹配的变量及指标。
除了上述经验性要求之外,在变量及指标选取方面还应该注意以下方面。
第一、指标与变量在含义上是否一致。如果选择表征变量的指标与变量的含义相去甚远,那么用这样的指标及其信息“拟合”出来的“估计图景”就很难揭示数据的真实状况,自然也就难以作为推断因果关系的经验证据了。
举例
1a:以农户正规信贷需求行为实证研究为例,因变量是农户正规信贷需求。在考察某样本农户某年的正规信贷需求行为时,如果选择的指标是该年期间样本农户获得的正规信贷金额,则该指标存在的问题是:正规信贷金额不等于正规信贷需求。在市场失灵的情况下,有一部分农户的正规信贷需求因为受到抑制或隐藏而未能表现为“实际贷款额”;而且,即使有些农户获得了贷款额,仍有可能存在其正规信贷需求只得到部分满足的情形。
1b:以供应链金融缓解中小企业信贷约束研究为例,两个变量:自变量为供应链金融,因变量为中小企业信贷约束。暂且不考虑因变量以及自变量的内生性问题等,这里重点讨论表征自变量的指标选取问题。有人用样本中小企业的应收账款、应付账款作为指标来表征供应链金融,这显然与供应链金融不是一个意思。能表征供应链金融的指标至少应该是中小企业通过供应链金融模式实际获得的贷款金额等。
举例
2a:以农业供给侧改革对农户生产经营行为的影响研究为例,其中自变量是“农业供给侧改革”,表征它的指标是是否实施了农业供给侧改革,比如用政策实施年份为时间哑变量,那么针对样本农户而言,这个指标对所有样本户都是一样的,没有区别。甚至可以这样讲,这样的选题一开始就是错误的。
举例
3a:以互联网金融发展水平对农户贫困状态的影响研究为例,其中自变量是农户的互联网金融发展水平,因变量是农户的贫困状态。针对每个样本农户而言,其贫困状态可以测量,但是其互联网金融发展水平却难以测量,通常都是用样本地区的互联网金融发展指数做代理指标。显然,这个指数是加总之后的,并不能完全有效地表征单个样本农户的互联网金融发展水平。