互助问答第511期:关于实证计量的若干问题
关于实证计量的若干问题
.老师好!
第一次向贵公众号提问题,尝试求教一回。感谢!
问题如下:
1.如果变量的数据基本符合正态分布,是否就不需要对数据进行进一步的处理,基本上可直接进行下一步回归分析?
2.工具变量的个数选择是不是只要不小于内生变量的个数就行?等于或者大于都可以(一般能不能区分两者等于更好还是大于更好呢?)?
3.文章研究A变量对B变量的影响,实证中,A的代理变量为x,B的代理变量为y,那么逻辑理论分析的时候,应该是直接分析A对B的影响路径呢?还是直接分析x对y的影响路径呢?因为x只是A的代理变量,两者之间还是有区别的。如果A对B的关系比较明显,可否只分析A对B的逻辑关系,而不分析x对y的逻辑关系?
4.面板数据回归分析中,一般操作中不用进行解释变量个数选择(如AIC准则判断)检验和函数形式检验(如linktest检验是否遗漏高次项)吗?
5.因变量为各城市劳动收入,统计年鉴中的该变量数据都是大于等于0的数值,这种情况是否必须要用tobit模型呢?仍用普通的面板模型行不行呢?
非常非常感谢老师。辛苦了!
1、只有在小样本情形下才有必要检查因变量的条件分布是否是正态分布。大样本情形下,不管因变量是何分布,系数估计量都趋近正态分布;此外,自变量的取值分布不影响系数估计量的统计推断。
2、工具变量个数需要等于或大于内生自变量个数,分别叫恰好识别和过度识别,两种情况在技术上都可以。过度识别可以进行过度识别检验,在特定条件下可能提高工具变量估计效率,但也要可能增加弱工具变量风险,无所谓哪个一定更好。
3、如果研究目的是分析A对B的影响,当然最好直接分析A对B的影响,只有当A或B本身无法完全观测或准确度量时,才有必要考虑代理变量。
4、取决于你怎么定义“一般操作”。如果是基于面板模型进行X对Y的因果关系识别,而不是为了拟合和预测,那么一般需要依据理论选择自变量。
5、某城市劳动收入不可能为0,该城市不可能没有劳动收入。如果0只是表示劳动收入缺失,那么在分析时就需要把0替换成缺失值,因为0值本身并没有意义,也就不能使用tobit模型。