面板数据-固定效应 vs. 随机效应
来源:不止点滴
作者:秋枫澜
一般来说,经济数据有三种类型:横截面数据(包括混合横截面数据)、面板数据和时间序列数据。对于应用微观研究而言,主要还是采用前两种数据类型,时间序列数据多应用于金融等方面的研究,由于我基本不做时间序列分析,以下就不再提及该数据类型。在有选择权的情况下(对于同一个研究主题,同时有横截面和面板数据可供选择),建议毫不犹豫地采用面板数据。
理由在于,相对于横截面数据,面板数据具有众多优势。简单讲三个优势:一是面板数据具有更多的样本量和信息量,可以降低变量之间共线性的可能性、增加检验统计量的自由度和增强估计结果的有效性;二是面板数据除了截面维度外,还具有时间维度,从而可以考察效应的时间变化趋势,进行动态分析;三是面板数据一定程度上可以减轻万恶的内生性问题(由遗漏变量引起的内生性),至于原因,将是下面要讲的重点。
在建立好计量模型和选用了面板数据后,接下来就是用适当的计量方法对模型进行估计了。对于面板数据下的模型,有三种常用的估计方法:固定效应估计、随机效应估计和混合效应估计。什么叫混合效应估计呢?就是把时间维度和截面维度的数据混合起来,极端地将面板数据看成一般的截面数据,然后用OLS来估计。可以发现,混合效应估计根本就没有发挥出面板数据应有的优势,因而在实践中并不推荐使用。从而面对面板数据时,或者用固定效应估计,或者用随机效应估计。
什么叫固定效应模型或者随机效应模型呢?对于如下的静态面板模型(解释变量中不包含被解释变量的滞后项,否则叫动态面板模型):
其中,下表i表示个体,t表示时间。对于所有的解释变量,可以将其划分为随时间变化的个体特征
(比如年龄和收入)以及不随时间变化的个体特征
(比如性别)。可以进一步将扰动项进行划分:
其中,
为扰动项中不可观测的不随时间变化的个体上的差异,具体叫做个体效应;
为扰动项中不可观测的不随个体变化的时间上的差异,具体叫做时间效应。
为扰动项中的余下部分,并假定其满足球形扰动方差等假设。
此时,可以根据个体效应或者时间效应与解释变量的关系来定义固定效应模型与随机效应模型:
(1)如果个体效应与某个解释变量相关,则模型可称之为“个体固定效应模型”;
(2)如果时间效应与某个解释变量相关,则模型可称之为“时间固定效应模型”;
(3)如果个体效应和时间效应均与某个解释变量相关,则模型可称之为“双向固定效应模型”;
(4)如果个体效应和时间效应与所有的解释变量均不相关,则模型可称之为“随机效应模型”。
从以上的定义可以发现,在随机效应假设满足的情况下,复合扰动项
与解释变量无关,因而可以得到一致估计。但是,由于此时
不是球形扰动项(
为球形扰动项,但
不是),从而OLS估计不是最优效率的,此时采用广义最小二乘法(GLS)可以得到最佳线性无偏估计,这也是用Stata进行随机效应回归时软件采用GLS的原因,如下图:
而在固定效应假设满足的情况下,复合扰动项
与解释变量相关,从而无法得到一致估计(回忆一下,假设
不成立是造成内生性的原因)。因此,固定效应模型估计方法的核心思想就在于消除扰动项中与解释变量相关的个体效应或者随机效应。一般来说,固定效应模型的估计方法有如下几种:
(1)组内估计(Withinestimate):即组内去均值处理;
(2)一阶差分估计(FD);
(3)最小二乘虚拟变量法(LSDV):在模型中加入固定效应的虚拟变量。
这里以个体固定效应模型为例讲一下组内去均值估计的基本思想,组内估计也是Stata默认采用的估计方式。对于如下的个体固定效应模型(3):
用模型中的每一项减去其均值,得到新的模型,如下所示:
由于u、Z和α均为不随时间改变的值,因而其均值就是其本身,也就是说
,从而模型(4)可以转化为:
其中
。此时可以发现,新的扰动项h与新的解释变量k明显不相关,因而通过OLS可以得到一致估计。现在应该能理解固定效应估计为什么能够一定程度上缓解因遗漏变量造成的内生性了吧?