当自变量为哑变量时，你的实证操作空间有多大？

2024-06-09 18:50:15

图片来源：网络

在大部分的实证研究中，我们常常去关注两个变量之间的相关性关系，或者A对B的影响因果关系以及这种因果关系在不同场景中的变化，但实际上，这些关系的分析和挖掘都建立在我们准确掌握因变量和自变量的统计分布规律的基础之上。

当然，考察这种相互影响关系必定会涉及到因变量和自变量的分布情况，也就是变量的分布是连续性随机变量，还是具有明显特征的离散型变量，这都是我们在实证分析中都应该加以关注的焦点。从日常的实证研究来讲，由于我们常常探讨因果影响关系，所以自变量和因变量往往是我们关注的焦点，这也是影响我们在实证研究中选择方法的重要因素。

譬如：当因变量或自变量的数值分布是呈现离散型的哑变量（0-1）时，我们实证分析操作所采用的方法会具有明显的特殊性。今天，我们将聚焦自变量为哑变量（0-1）这个特殊情况，来总结一下实证研究中的操作技巧和推进空间，以充实咱们的实证检验，提高实证分析的严谨性和完整性。

大家都知道，哑变量也被称为虚拟变量，它的数值分布范围为1和0两者，即要么是1，否则为0，是一种非无即有的逻辑关系。在实证研究中，如果咱们的自变量为哑变量（0-1），我们后续实证分析的设计空间有多大？具体的实证操作思路有哪些？根据自己的研究经验，以及文献阅读学习和积累，我认为在一篇实证研究的文章里，如果自变量为哑变量，我们可以从下面方向入手来设计实证分析的操作思路（或选择其一即可）：

1、样本均值比较。通过利用自变量为哑变量的条件，我们以此为基础进行分样本的均值比较，通过比较开解读和挖掘不同样本中不同变量或经济现象的差异性，并从中获得有价值的信息。不同样本中某变量的均值比较，其中均值比较：ttest var1,by(group)。

2、进行回归结果分析时，我们可以进行两类样本的比较。在解读主效应的实证结果时，我个人是比较自变量为哑变量的情况下的结果。这是因为，通过这个哑变量的系数我们可以比较两个样本分布下因变量的差异比较，而且还可以通过自变量的系数可以直观观察到一个单位的自变量变化可以改变因变量数值多少，这就是所谓的计量结果的经济意义。譬如，当我们在考察政治关联对企业投资水平的影响时，如果此时政治关联的回归显著为0.233，这表明相对于没有建立政治关系的企业而言，有政治联系的企业投资水平会更高，而且整体而言，政治联系企业的投资水平要高于非政治联系企业的23.3%。显然，这类相似的实证结论更为直观，为我们解读和掌握相关信息提供了便利。

3、样本自选择考察：Heckman二阶段法的运用。Heckman两步法主要用于解决实证研究中所获得的数据不能代表研究总体而导致的样本选择问题。样本选择偏差既可能是由非随机抽样所导致的，也可能是由自选择问题所导致的。

方法一：Heckman 因变量控制变量, select (自变量哑变量 =工具变量其他影响因素-控制变量) twostep。

方法二：先在第一阶段中计算出除逆米尔斯比率IMR，再在第二阶段中将逆米尔斯比率imr作为控制变量，予以考察。基本步骤如下：步骤1: 通过运用probit模型计算影响所考察变量的哑变量（0-1）的影响因素（即“第一阶段”）；步骤2: 在上述一步基础上，计算预测：predict w,xb；步骤3: 再次，计算生成：gen IMR=normalden(w)/normal(w)；步骤4: 最后，将所生成的逆米尔斯比率IMR引入主要考察模型，并予以控制（即“第二阶段”）。

或者，将Heckman两步法解读为：

第一阶段，建立Probit选择模型。用以估计存在选择偏差变量发生的可能性，并计算逆米尔斯比率（Inverse Mills Ratio，简称IMR）。IMR的作用是为每一个样本计算出一个用于修正样本选择偏差的值。如果IMR大于0，表明样本存在选择性偏差，此时采用Heckman两步法选择模型估计是恰当的修正。第二阶段，利用选择性样本观测值，将第一阶段估计的IMR与其他变量一起放入第二阶段的回归模型中。自选择问题已经通过第一阶段的选择模型得以修正，并在第二阶段由IMR反映出来。

4、倾向得分匹配法PSM的运用。倾向得分匹配法是一种研究方法，它在研究某项治疗、政策、或者其他事件的影响因素上很常见。对于经济、金融学领域来说，比如需要研究某个劳动者接受某种高等教育对其收入的影响，或者比如研究某个企业运用了某项管理层激励措施以后对企业业绩的影响。

通俗地说，我们真正要做的是考虑，如果拿小明来说，小明读了研究生和小明没有读研究生，他的收入会差多少？可是小明已经读了研究生，我怎么才能估计出他要是不读研究生，他的收入会是多少呢？于是，我们引入“倾向得分匹配”这样一种研究方法。英文叫Propensity Score Matching。这种方法能让我们从一大堆没有读研究生的人群中（也就是我们的总体样本的一个子集），对每个人读研究生的概率进行估计，然后选出和小明具有非常相似的去读研究生的概率，可是没有去读的同学小刚——作为小明的对照，然后再来看他们的区别。

当样本中的每个研究生”小明“都找到了匹配的非研究生”小刚“，我们便能对这两组样本进行比较研究了。

1. 所以第一步，我们要对总体样本执行probit或者logit模型，然后估计出每一个观测对象读研究生的概率是多少。以probit模型为例，在stata中，执行以下命令：probit [dependent var] [independent var]；其中，[dependent var]是一个0或1的二进制变量，1代表该对象读了研究生，否则是0。

2. 对每一个观测值，我们根据估计出来的probit模型，算出他读研究生的概率是多少。Stata中，执行如下命令：predict pscore, p；其中，pscore是定义的记录每个观测对象概率的变量名称。

3. 使用psmatch2命令，让Stata帮你对于每个读了研究生的观测对象，找出一个与之具有最接近的概率值的，可是没有读研究生的观测对象：psmatch2 [dependent var], pscore(pscore) noreplacement；其中，(pscore)是在第二步中生成的那个记录对象概率的变量，noreplacement是一个选项，使得任何读了研究生的观察对象的对照对象都具有唯一性，换言之，只能1对1匹配。

4. Stata会在你的数据中自动添加几个变量，其中_id是自动生成的每一个观测对象唯一的ID；_treated表示某个对象是否读了研究生，如果读了，_n表示的是他被匹配到的对照对象的_id；_pdif表示一组匹配了的观察对象他们概率值的差。

做好了这些，你就完成了一个最简单的1对1的倾向得分匹配。psmatch2还提供多种匹配方法，比如在一定的半径范围内的临近匹配、在一定概率阀值内的全部匹配等等。具体的可以在Stata中输入help psmatch2查看所有可用的选项。

需要注意的是，psmatch2会在每一轮匹配的时候重新刷新_ID，所以如果比如你需要对psmatch2加入if语句，进行多次循环匹配的话，需要在每一次结束的时候即使将match的结果使用你自己数据的ID导出到其他变量，否则所有本轮_ID以及_n的信息会在下一轮匹配中被清除，事后你将无法判断对照对象究竟为哪个。

最后，在考察哑变量问题，我们常常面临变量数值的分布限制性，为了提高数据处理的灵活性，我们还会通过一系列操作来实现或生成哑变量。譬如：如果原始的自变量不是哑变量，可以通过数值转化得到，如何将一连续变量生存其哑变量的命令，例：gen dmarket=1 if market>=8.94（其中, 8.94为中位数或均值）；replace dmarket=0 if market<8.94。

为此，当自变量为哑变量（0-1）时，针对以上几种方法，你可以在实证论文撰写中引用一种方法，也可以根据实际情况运用多种。

实证研究中常常忽视的一个点：该如何将“控制变量”的选择进行到底

图片来源:网络人的行为惯性,往往会主导我们的思路!在实证分析中,我们常常重视因变量和自变量的选取和定义,而忽视控制变量的选取的重要性.但是,我们不能轻视的是,控制变量也是实证研究中重要的一环,能否选 ...
互助问答第511期：关于实证计量的若干问题

关于实证计量的若干问题 .老师好! 第一次向贵公众号提问题,尝试求教一回.感谢! 问题如下: 1.如果变量的数据基本符合正态分布,是否就不需要对数据进行进一步的处理,基本上可直接进行下一步回归分析? ...
参数

参数,也叫参变量,是一个变量. 在研究某几个变量的变化以及它们之间的相互关系,其中有一个或一些叫自变量,另一个或另一些叫因变量.如果引入一个或一些另外的变量来描述自变量与因变量的变化,引入的变量本来并 ...
互助问答第401期变量中有大量0值的问题

变量中有大量0值的问题老师,您好!请教一下关于自变量和因变量中有大量0值,该如何处理呢.自变量是企业的R&D投入,有大量0值,和正值的投入金额占销量比例.因变量是企业的销量变化百分比,有大量 ...
R数据分析：逻辑斯蒂回归与泊松回归

今天将逻辑回归和泊松回归放一起给大家写写,因为它两在R中的做法都非常的相似和非常的简单,同时还有两个回归的图形化表达. 什么时候用逻辑回归 Logistic regression, also know ...
互助问答第528期：关于中介变量的问题

关于中介变量的问题老师好,请问在做中介的时候需不需要在报告基准模型中加入中介变量.比如有3个中介分开来做为啥会出现两个部分中介和一个完全中介的情况?但是如果我把三个中介变量一起放到基准模型中,自变量 ...
做好这些准备工作，是进行实证分析的前提！

前年,我个人有个学术会议经历让我对"定量分析"重要性非常深刻!作为一个经管专业的学生,我有幸参加北京一重点大学的社会政治学领域的一个交流会议!在会议结束的总结陈词中,一位北大的老教 ...
回归分析哑变量设置了吗？ | 30天学会医学统计与SPSS公益课程(D30)

30天学会医学统计与SPSS 本课程是高校医学统计学教授的公益.免费公开课!如假包换!我将每天推送视频和文字教程,讲授基于医学数据的各种统计分析策略.如果你能跟得上节奏,我相信在一个月后,您将会掌握医 ...
因变量和内生变量是连续,有序和无序多元变量时, 该如何做工具变量估计？

稿件:econometrics666@126.com 所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问. 今天,为大家引荐一个类似于ERM(你的 ...
vba中声明变量时简写数据类型

vba中声明变量时简写数据类型 (2013-07-17 16:44:40) 转载▼ 标签: 数据类型简写分类: EXCEL-VBA integer % 短整型 long & 长整型 si ...
如何在SPSS中设置逻辑回归的哑变量

哑变量,是一个人为设定的变量,通常取值为0到N,以职业分类来说,0代表学生,1代表工人,2代表老师等等,哑变量就是通过这种取值方式,以此来反映某个变量的不同属性. 哑变量的设置在各个回归模型中都非常重 ...
R语言计量经济学：虚拟变量(哑变量)在线性回归模型中的应用

原文链接:http://tecdat.cn/?p=22805 为什么需要虚拟变量? 大多数数据都可以用数字来衡量,如身高和体重.然而,诸如性别.季节.地点等变量则不能用数字来衡量.相反,我们使用虚拟变 ...
回归模型中的哑变量是个啥？何时需要设置哑变量？

在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量:如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则 ...
一行pandas代码生成哑变量

一. 数据 import pandas as pd df = pd.read_csv('data.csv', usecols=['Name', 'Info']) df.head() 二.任务现在我想 ...
R笔记：哑变量

转自个人微信公众号[Memo_Cleon]的统计学习笔记:R笔记:哑变量.哑变量(Dummy Variables)也称虚拟变量,在回归中是一个很重要的概念.哑变量的引入使得回归模型变得更复杂,但对问题 ...
秦亡时三个不合理：陈胜做大太快，骊山囚徒太狠，刘邦入关太顺

公元前221年,大秦虎狼之师横扫六国,一统天下,公元前207年,刘邦大军兵抵咸阳,秦王子婴出城投降,秦亡. "奋六世之余烈"以一统天下的大秦,从得天下到失天下,只用了短短15年. ...

当自变量为哑变量时，你的实证操作空间有多大？

相关推荐