最全解读匹配方法原理
一、匹配和回归
匹配和回归的方法都要满足条件独立性假定,简称CIA,Conditional independence assume。条件独立性假定其实就是:如果P(X,Y|Z)=P(X|Z)P(Y|Z),或等价地P(X|Y,Z)=P(X|Z),则称事件X,Y对于给定事件Z是条件独立的,也就是说,当Z发生时,X发生与否与Y发生与否是无关的。
对于回归而言,总体回归函数的系数可以写成如下的形式:
对于匹配而言,其系数可以写成如下形式:
回归系数和匹配系数的取值情况有所不同:具体表现如下:
回归系数:干预变量的条件方差加权,当p(x)=0.5时,系数值取最大(回归系数对那些层内两组个体数目相同的层赋予更大的权重)
匹配估计测度是利用倾向指数进行加权,倾向指数更大的层赋予更大的权重
回归系数与匹配系数一般情况下不相同,但有两种情况下是一致的:
第一种是倾向指数是常数,类似于完全随机化实验,无论个体特征如何,接受干预的可能性均为p
第二种是
为常数,不同特征的个体平均因果效应相同,符合常数因果效应模型,不存在异质性,回归系数等于因果效应参数。
所以说,匹配的好处,就是在匹配过程中需要满足共同区间的要求,可以清楚地知道哪些样本进入匹配,从而可以清楚所得到的匹配估计量可以解释为哪些子总体的因果效应。
二、两种匹配方法
不管是什么匹配方法,都要满足使用前提,一个是条件独立性假设CIA。另外一个是条件均值独立性假设CMI。
思考一个问题为什么需要匹配?
只能观察到一种干预状态下的结果,无法观察到其他干预状态下的结果
匹配的基本思想是什么?
对于干预组个体,在控制组中寻找特征相似的控制组个体与其相匹配。使用控制组个体的结果来估计干预组个体的反事实结果
匹配方法主要有两种,一个是协变量匹配,另外一个是倾向指数匹配
首先,先看一下协变量匹配
首先要了解如何去识别我们的因果效应参数:
其中Y1的期望值是可观测的,Y0的期望值是不可观测的,即反事实结果。
那么分两种情况来去解读,一个是完全随机化实验,一个是分层随机化实验
对于完全随机化实验来说,有:
对于分层随机化实验来说,有:
为什么要先说到完全随机化实验和分层随机化实验呢(因为要铺垫),因为匹配方法近似于分层随机化实验,在满足CIA条件的情况下,干预组的平均因果效应可以识别:
由CIA条件可得:
故有:
是具有相同特征的干预组和控制组观测结果的平均值之差,故要求总体上特征为Xi的个体在干预组和控制组都有个体存在。
在进行匹配的过程中,还需要考虑到一个点,就是要满足共同区间要求:
所以在协变量匹配的过程中:
根据观测变量分层以后,层内均有干预组和控制组个体
保证层内平均因果效应的存在,适合使用匹配方法进行估计
前面分析的是协变量匹配,然后我们来研究一下倾向性匹配:
为什么会出现倾向指数匹配?
“维度诅咒”--即使总体满足共同区间条件,但由于抽样的随机性,分层以后会出现层内只有一组个体的情况。当观测变量很多时,即Xi是高纬度向量,分层以后也会出现层内仅有一组个体的情况
倾向指数匹配的基本定义:
Rosenbaum and Rubin(1983)提出,根据观测变量Xi进行匹配转向对一维的倾向指数进行匹配
定义1:倾向指数
定义2:平衡指数:
平衡指数可以使两组协变量平衡,干预组和控制组的协变量分布相同
倾向指数定理:就是证明下面这个式子:
证明过程如下:
根据倾向性指数匹配,总体平均因果效应的倾向指数匹配估计测度可以写成:
干预组平均因果效应就可以写成:
所以说,倾向指数匹配的主要两大步骤:①估计倾向指数 ②根据估计的倾向指数进行匹配。
三、匹配方法的基本步骤
首先是定义相似性
匹配方法:为每个干预组个体寻找特征相似的控制组个体进行匹配。为每个控制组个体寻找特征相似的干预组个体进行匹配。
定义相似性的两个层面工作:应该选择哪些变量作为定义相似性的依据,如何将这些变量形成一个相似性的测度。
哪些变量作为定义相似性的依据:条件独立性假设,在倾向指数匹配中,若引入与干预变量没有关系的变量不会有太大影响。当引入的变量是影响结果变量的重要变量时,引入后会提高估计的精度。如果引入与结果变量没有关系的变量,会稍微增加估计标准误差。如果遗漏重要的混杂变量,则会造成显著偏差。所以说,对结果变量有重要影响的协变量,无论是否和干预变量有关,都可以引入作为匹配的依据。
在定义相似性的时候,可以采用欧式距离:
注意一点,倾向指数意义上的相似性并不能完全反映变量意义上的相似。
在进行倾向指数匹配的过程中,经常会使用logist模型:
还可以采用马氏距离:
利用马氏距离通常结合线性化倾向指数:
在定义相似性的过程中,还要去考虑离散变量和连续变量的情况。
对于协变量中的离散变量--精确匹配--使距离完全为零定义为相似性
对于连续变量--不精确匹配--比如线性化的倾向指数进行匹配
为了保证不精确匹配的效果,使用倾向指数设定卡尺
将相似性定义在一定的卡尺范围内,卡尺的马氏距离匹配为:
c为卡尺,在卡尺范围内才有可能相似,在卡尺范围之外,将不可能相似。
在定义相似性的过程中,要保证倾向指数满足平衡指数特征:
Imbens and Rubin(2015)估计倾向指数模型的方法:
①根据经济理论或直觉构造一个基本的倾向指数模型
②若发现估计的倾向指数匹配不满足平衡指数特征,则需要进行重新修正
第二个基本步骤是匹配实施方法:
匹配的实施方法主要包括:近邻匹配与分层匹配
近邻匹配主要有以下两种:
一对一近邻匹配:为每个干预组个体在控制组中寻找一个距离最近的控制组个体与其匹配
一对多近邻匹配:为每个干预组个体在控制组寻找多个个体与其匹配
各自优势:一对一近邻匹配最终匹配的样本较少,估计方差较大,但由于匹配个体较近,偏差较小,一对多匹配:匹配样本容量比较大,估计精度较高,估计偏差会增加因此:要在估计偏差和估计方差中权衡。
各自的使用:一对一最近邻匹配会得到比较好的匹配样本,一对多匹配一般考虑运用到样本数量较多的情况
一对一最近邻匹配的问题:
如果出现距离相同的多个控制组个体时应该如何处理?
①随机选择一个作为匹配
②根据排序,在前面的首先匹配
③利用距离相同的多个控制组个体的平均值作为干预组个体的匹配
当控制组与干预组特征相差较大的时候,由于一对一最近邻匹配总是要在控制组中找一个距离最近的与干预组个体进行匹配,可能会出现估计偏差较大的情况
设定卡尺来避免,在卡尺范围内寻找与干预组个体距离最近的控制组个体相匹配
思考这个问题:控制组个体是否可以重复匹配?
①重复使用控制组个体会降低匹配偏差
②允许重复使用会降低最终匹配的样本量,使估计的精度下降
一对一最近邻匹配主要方法:贪婪匹配、最优匹配、半径匹配、分层匹配
贪婪匹配:
①对每一个干预组个体都在控制组中寻找一个距离最近的
②保证每一对距离最近,对于全部干预组个体而言,匹配上的控制组样本并不一定是总体最近的
最优匹配:
①总体上对所有的干预组个体同时进行匹配
②寻找对所有干预组个体而言匹配上总距离最小
③计算量大大增加,如果关心平均因果效应,主要匹配出相似的干预组和控制组样本,最优匹配优势不大
半径匹配:
①事先设定一个半径,半径之内的定义为相似,之外的定义为不相似
②半径越小,匹配质量越高,偏差越小
③半径越小,越难找到匹配
分层匹配:
根据协变量或倾向指数进行分层,层内两组个体特征比较相似,可降低估计偏差
①如果协变量是离散变量:直接根据协变量的取值进行分层
②如果协变量是连续变量:只能做到相近的协变量或倾向指数进行分层
思考这样一个问题:分多少层?什么时候层内的协变量或倾向指数足够相似?
不管分多少层,要满足共同区间要求的倾向指数范围内,超过[b0,b1]区间的样本无法匹配。
第三个基本步骤是匹配效果诊断
将隐藏的随机化实验样本寻找出来,常用的检验指标包括:
标准化平均值差异:
如果两组个体协变量完全平衡,标准化平均值差异为0,imbens and rubin证明,如果两组倾向指数的期望值相同,那么两组个体的协变量的分布将相同
其他的方法:倾向指数分布图、分位数分布图、标准化平均值差异图等
第四个基本步骤是进行因果效应估计:
因果效应估计
设计阶段:将隐藏于观测数据中的随机化实验样本寻找出来
分析阶段:借鉴随机化实验数据来分析
讨论干预组的平均因果效应的匹配估计量:
在进行因果效应估计的过程中,也要考虑两个情况,一个是精确匹配,一个是非精确匹配。
精确匹配:保证了匹配样本与干预组协变量相同
非精确匹配:会造成一定的估计偏差
第一项是干预组平均因果效应的匹配估计量
第二项是干预组的平均因果效应
两者之差则为估计偏差--匹配偏差主要是由于匹配样本观测值估计干预组反事实结果Y0i造成的偏差
在分析因果效应的环节中,我们要考虑匹配偏差的存在,从总体的视角来看匹配偏差:
第五个基本步骤是逆概加权方法:
Horvitz and Thompson(1952)提出,为了获得总体特征的无偏估计,利用抽样概率的倒数对抽样个体进行加权
故总体的平均因果效应可写为:
干预组平均因果效应:
使用逆概加权方法时的两个关键步骤:
首先估计倾向指数,然后利用倾向指数对两组个体进行加权
逆概加权方法和匹配需要共同识别的条件时CIA和共同区间假设,逆概加权估计量依赖于倾向指数,倾向指数模型存在模型误设,则会带来较大偏差。
最后一个步骤,要检验条件独立性假定
条件独立性假设检验:
两组观测结果的差异是由可观测协变量造成的
未观测因素对两组结果没有系统性影响
但是CIA依赖于潜在结果,无法直接检验
间接检验方法:
伪结果方法
①利用一个事实上没有受到干预影响的变量作为伪结果
②检验控制协变量后,相应的伪结果平均因果效应是否为零
伪干预方法:
利用多个控制组的比较来检验CIA是否成立的一种方法
上式中的Ti为伪干预,Ti=0为伪干预组,Ti=-1为伪控制组
两组均为控制组,均没有受到影响,在控制Xi以后,伪干预组和伪干预组之间的差异是非系统性的--伪干预的平均因果效应将为零--说明决定结果变量的主要混杂因素已经被控制了
若不为零,则说明除Xi,存在未观测因素影响结果变量,导致两组控制组平均结果出现差异
四、倾向匹配指数命令与案例分析
匹配命令:teffects
主要包括七个子命令:ipw、aipw、ipwra、nnmatch、psmatch、ra、overlap
其中:ipw、aipw、ipwra对应逆概加权方法
nnmatch近邻匹配方法
psmatch倾向指数匹配方法
ra回归调整命令
overlap用于绘制倾向指数分布图
tebalance用于检验协变量的平衡性
teffect nnmatch的基本用法:
teffect nnmatch(ovar omvarlist) (tvar)[if][in][weight][,stat options]
在案例中的操作步骤:
1.构建数据集,检验协变量是否平衡(使用pstest检验原始数据协变量的平衡性)
2.通过平衡性分析,若干预组和控制组差异非常显著,则需要倾向指数匹配方法
3.进行倾向指数匹配,从基本模型出发,将主要协变量均引入倾向指数匹配模型
4.不断检验倾向指数模型是否充分
5.不断进行调整(利用1:1最近邻匹配)
6.匹配后,干预组和控制组协变量已经非常相似,标准化平均值差异均接近0
7.利用匹配样本,回归分析所得到的结果可以解释为偏差修正的匹配估计量
8.最后,还需要检验CIA是否成立,CIA不成立,则估计结果不能解释为因果效应
总结:
匹配方法与回归方法相似,识别条件都是条件独立性假设CIA成立,匹配的优势:两组协变量差异很大时,回归一般不能得到稳健的估计结果。匹配方法通过匹配,在协变量不平衡的观测样本中,分离出一个协变量相对平衡的匹配样本,更加清楚哪些样本估计匹配的估计量,得到匹配估计量可以解释哪些个体的因素效应,使结果更加稳健,对函数形式不再敏感。