反过来解释变量是Y, 被解释变量是X, 做另一个实证研究可不可以?

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
前些日,我们推荐了“TOP5被质疑用log(1+x)数据转换, 固定效应, 双重差分事件图, 结论不可靠!” 里面有讲到学者质疑文章对专利进行log(1+X)转换的问题。
好巧不巧,群友又在计量社群里分享了来自金融学TOP3刊JFE上的文章《Count (and count-like) data in finance》,里面也讲到类似问题并提出了替代性的解决方案。
可以预见,在这篇文章出来后,若继续采用常规操作,很可能会被看过这篇文章的审稿人拒稿。

关于理论与实证研究,参考:诺奖Robert Lucas: 我经济学研究中的经验与教训!万字独家分享!


简要一段话总结:
本文评估了处理基于计数的结果变量和具有类似分布的其他结果变量的不同计量经济学方法,他们在公司金融应用研究中越来越常见。作者证明了实践中通常对结果变量加1后取对数log(1+Y)进行线性回归的常见做法会产生没有自然解释的估计量,并且在期望值上很容易出现错误的符号。相比之下,一个简单的固定效应泊松回归在更一般的条件下可以产生一致且合理有效的估计值。作者还通过复现现有论文表明,经济结论可能对所采用的回归模型高度敏感。
简要介绍:
金融研究人员通常使用回归分析对基于计数,以及其他本质上限制为非负值的类似计数的结果变量进行建模。例如,授予企业专利的数量、有毒废气排放的吨数、工作场所受伤人数以及两个企业所在城市之间的里程数等等。这种类型的结果变量通常具有高度右偏的分布,大量取值集中在零周围——这些分布特征对回归分析提出了特殊挑战,因为它们使得简单的线性回归无效(即OLS的BLUE特性中的Best没法得到保证)。研究人员在意识到这些挑战后,开始采用各种方法解决这一问题。然而,一些常用的方法由于缺乏计量经济学基础,从而产生了解释不清的估计量。
在这篇论文中,我们使用计量分析和模拟来评估常用的计数和类计数结果变量的回归模型。我们还复现了六个顶级金融期刊上分析有两个这样的结果变量的数据集,并比较不同回归模型的估计值。主要结论是泊松回归提供具有自然解释的估计量,不需要特殊假设即可进行有效估计,通常可以很好地拟合此类结果变量,并且在公司财务应用中至关重要。相比之下,log(1+Y)对数线性回归的常见做法所产生的估计值缺乏有意义的解释,并且存在固有的偏差,可能导致他们估计出在期望值上相反的符号。虽然log(1+Y)回归估计量的解释对于理解特定论文的结论可能不是关键,但我们的复现分析表明,泊松回归和log(1+Y)回归之间的选择,对估计结果的影响比遗漏最重要的控制变量还要大。
一般处理偏态数据的常用方法是对结果变量进行对数转换,然后对转换后的变量进行线性回归估计。这种对数线性回归模型自然对应于一个基本的恒定弹性模型,回归系数可以方便地解释为半弹性估计值。Santos Silva 和 Tenreyro(2006)表明,对数线性回归模型的一致性估计要求相应的恒定弹性模型中的误差是同方差的,而这一假设在实践中可能不成立。我们扩展了他们的分析,以表明这些误差中的异方差性甚至会导致对数线性回归系数的符号错误,并且控制固定效应会加剧偏差。我们还就偏差的方向和幅度提供了新颖的指导。
当结果变量具有很多0值时,对数线性回归可能在实践中不可行,因为零的对数未定义。金融学和其他领域的研究人员通常通过估计log(1+Y)回归来解决这一问题,该方法允许保留具有零值结果的观测值。最近一项Econ Twitter民调显示,69%的受访者报告称他们要么估计了log(1+Y)回归,要么使用了涉及将结果变量进行反双曲正弦(IHS)转换的类似方法。尽管这些方法允许保留具有零值结果的观测值,但它们并未映射到自然经济模型中,并且由此所得估计值的经济解释和计量特性并不是很清楚。
我们首先表明,无法从log(1+Y)回归系数中恢复具有经济意义的解释。然后,我们确定了两个可能在log(1+Y)回归中普遍存在的偏差来源。首先,要一致地估计对数线性回归,需要同方差常数-弹性误差的要求让位于“模型中的误差表现出一种特定但不合理的异方差性”。其次,结果变量和协变量之间关系的非线性组合以及协变量之间的任何非线性关系都可能使平均效应的估计值产生偏差。虽然第二个问题不是log(1+Y) 回归所特有的,但任何合理的经济模型都将生成一个结果变量的对数值与协变量之间的非线性关系,从而使问题在log(1+Y) 回归中普遍存在。模拟表明,log(1+Y)系数在期望值上很容易出现错误的符号,因此很难从这些系数中可靠地推断出两者关系的方向。IHS 转换也会出现同样的问题。
估计结果变量转换后的线性回归的另一种方法是广义线性模型(GLM)估计,如泊松回归。与对数线性回归一样,泊松回归对应于一个基本的恒定弹性模型。然而,泊松回归可以适应取值为零的结果变量,并且不需要对高阶模型误差矩进行一致性估计的假设。虽然偏离众所周知的条件均值-方差等式的约束会降低泊松估计的效率,但不会引入任何偏差。在实际应用中,泊松回归允许可分离组别固定效应。虽然其他候选回归模型,如负二项回归、零膨胀回归或 I 型 Tobit回归,在某些情况下可能会比泊松回归产生更有效的估计值,但它们不允许可分离的组别固定效应,这在公司金融研究中是一个很大的局限。虽然泊松回归明确地对计数数据进行建模,但即使结果变量是连续的,它也会产生有效的半弹性估计值和标准误差。
值得注意的是,泊松回归中的固定效应是乘法的,而不是加法的。加法固定效应只影响结果变量的均值,但乘法固定效应既影响结果变量的均值又影响标准差。虽然乘法固定效应可能看起来不太常见,但对数线性化回归也隐含地假设了乘法固定效应结构。此外,当处理本文关注的结果变量类型时,乘法固定效应更为自然。例如,对于平均每年获得10项专利的公司而言,年度授予专利数量的标准差可能比平均每年获得1项专利的公司大10倍。
为了评估本文的分析在实践上的相关性,我们复现了发表在顶级金融期刊上的六篇论文中的数据集,这些论文共同研究了两个计数或类似计数的结果变量:公司年度授予的企业专利和工厂年度毒性释放量。我们在每篇论文的主表中选择一个回归方程,根据该方程估计log(1+Y)和泊松回归,并比较感兴趣的变量的系数。这些系数在所有六种情况下都存在显著差异,并且在六种情况中的三种具有不同的符号,这表明即使是关系方向的推断在现实应用中也对回归模型选择极为敏感。为了了解背景,对于所有涉及控制变量的五个案例,从log(1+Y)到泊松回归的转换导致感兴趣的变量的系数的变化比遗漏最重要的控制变量要更大。

关于金融学研究,参看:1.2022年诺贝尔经济学奖: 表彰Bernanke, Diamond和Dybvig对银行和金融危机的研究贡献,2.基于文本大数据分析的会计和金融研究综述, 附24篇相关讲解文章!3.一篇说“可能重新改写经济学基本公式和金融数学推算”的投稿,4.中文顶刊上关于零工经济的研究, 思路和方法借鉴的是这篇金融TOP刊文章?5.从耶鲁到香港, 从金融到历史后, 陈志武教授第一篇TOP刊文章是OLS+IV组合!6.TOP5刊, 我国政府为什么对金融市场进行定期和密集的干预? 7.中国数字普惠金融的测度及其影响研究: 一个文献综述,8.Top金融,经济与会计期刊中的文本分析, 一项长达2万字的综述性调查,9.经济金融学研究中的大数据革命, 将来的实证研究该何去何从?10.合作者把代码弄丢了! 只能撤稿! 发表在最TOP金融期刊上, 但用代码复制不出结果! 11.金融, 管理和会计, 中国人在哪个领域做得最好呢?基于TOP国际期刊的发现,12.前沿: 大数据对经济金融研究的致命影响, 那又该如何推动这些领域的前沿研究呢?13.华人金融学术女神为运用工具变量估计方法做因果推断的学者提供了如下宝贵建议!14.推荐"数字普惠金融指数", 省市县三级面板数据可做很多实证研究,15.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 16.金融学文本大数据挖掘方法与研究进展, 金融学者看过来!17.权威前沿: 大数据时代经济学和金融学中的预测方法和实践, 不看就不要提前沿!18.诺奖得主五因子定价模型的国际检验, 做金融的得学起来了!19.神器! 统计和金融计算器, 词云和情感分析器强大到无敌!20.最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望, 中青年学者不能不关注!21.前沿: 机器学习在金融和能源经济领域的应用分类总结,22.疫情期Wind资讯金融终端操作指南,23.疫情期间CSMAR数据库使用指南!金融财务管理必备数据库!24.金融领域三大中文数据库, CSMAR, CCER, Wind和CNRDS,25.Luigi Zingales: 金融有益于社会吗?26.经济金融领域第一位华人当选美国艺术与科学学院院士,27.时间序列数据分析的思维导图一览, 金融经济学者必备工具,28.研究创意的来源在哪里?顶级国际金融期刊主编如是说,29.金融人如何用好统计分析学, 金融视角下的统计分析,30.金融计量模型:误差修正模型(Error Correction Model,ECM)

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

4年,计量经济圈近1500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。
(0)

相关推荐