R数据分析:交叉滞后模型基础与实例解析

最近问纵向数据分析的同学贼多,像潜增长,GEE,多水平,之前好像都有写,今天偷空出个简易的交叉滞后教程哈,希望对大家有用。大家只要遇到像causal models,cross- lagged panel models,linear panel models 和autoregres-sive cross- lagged models 这些,都要反应过来他们都是一个东西,都叫面板模型,统一的数据特点就是把变量纵向测量很多波,然后想探讨变量间的关系,最简单的情形就是两波的时候啦,如下图:

我们看着这个图,可以自然而然地写出来这两个方程:

上面式子中的β1和β3叫做自相关系数,描述了此构象的稳定性。越大越稳定,很好理解哈。
β2和β4叫做交叉滞后系数,表示一个构象对滞后的另外一个构象的作用。这个系数是在控制自身预测作用后体现出来的一个变量对滞后一期的另外一个变量的作用,所以叫做滞后效应,其相对于传统回归的优势就在于其控制了自回归效应,然后在面板数据中我们既可以让x1影响y2,也可以让y1影响x2,图中就有一个交叉,所以就叫交叉滞后模型

The fact that prior levels of the outcome construct are controlled for allows one to rule out the possibility that a cross-lagged effect is due simply to the fact that X and Y were correlated at time 1.

当然啦,上面的例子都是两个构象和两个时点的情况,该模型也可以延伸到多个构象和多个时间点,相应的系数都是一个意思。

The preceding model can be extended to more than two occasions and more than two constructs. The autoregressive and cross-lagged effects retain the same meaning.

交叉滞后的优势

搞纵向数据的时候我们其实是需要一个变量随时间变化的假设或者理论的,但是交叉滞后模型并没有这个一个假设,我们只是单纯地将自回归效应加进去而已,所以有人其实是不赞成这种方法,反而更加倾向于潜增长或者GEE等明确变异关系的方法:

path models, such as the panel model,should be avoided because they do not begin with an explicit statement of the expected change process

但是对变量间的具体变化并不关心的时候,交叉滞后不失为一种好方法,好处体现在:

  • 对相互作用(Reciprocal Effects)的研究上

相互影响的关系其实是很多的,比如母亲和子代相互影响,人和环境相互影响等等,交叉滞后模型可以让这种关系的研究变得更容易,比如你可以很容易地通过交叉滞后模型知道到底是x在影响y还是y在影响x,或者是相互都有影响,以及每个路径的强度:

Results from a panel analysis can be used to determine whether cross-lagged effects occur in both directions (i.e., whether X1 predicts Y2 and Y1 predicts X2) and to assess the relative strength of the cross-lagged effects. For example, data based on the observation of a parent–child dyad could be analyzed to see whether a parent’s behavior affects the child’s subsequent behavior or the child’s behavior affects the parent’s subsequent behavior and even to see which of the two cross-lagged effects is stronger.

  • 对中介效应(Mediation)的研究上

很多人都是随便拉3个有关系的变量就开始做中介,这个不好评价,水水论文嘛,但是更好更清晰地说明中介效应的存在,应该使用面板数据的分析:

The longitudinal nature of the data from the panel design provides an advantage over mediation models estimated using cross-sectional data

  • 对调节效应(Moderation)的研究上

通常我们检验调节作用的方法是将自变量和调节变量的积放在回归模型中,这种情况只适用于显变量的时候,如果你的调节变量是个潜变量使用交叉滞后面板模型就会更加容易。

交叉滞后中的测量不变性

测量不变性之前文章有写,这个不是说我们要测定构象是不变化的,而是评估我们测量真实性的一个指标:

It addresses only the equivalence of measurement of the construct to ensure that the differences in the constructs are true differences

测量不变性的基本逻辑在于:如果一个构象随时间改变,那么它所有的显变量都应该是向同一个方向改变同样的数量:

The basic idea of factorial invariance is that if the construct changes over time, then this change is conveyed as changes in all the indicators in the same direction and the same amount.

如果显变量的改变出了矛盾的情况就说明测量不变性不再满足,需要注意的是测量不变性是对潜变量而言的,在只有显变量的结构模型中是没有测量不变性的

交叉滞后面板模型和因果推断

一段时间以来,人们会想当然地说面板可以说明因果关系,因为面板模型它测量了很多波数据,满足两个很重要的因果推断的前提,一个是时间先后,一个是对自身和其余混杂的控制:

Two fundamental aspects of causal inference:

First, by measuring putative causes prior to the effects, temporal precedence of the cause is supported, and

Second, by simultaneously modeling the unique effect of several causes, it may be possible to support a causal explanation of one variable over another.

但是仅凭面板数据推因果也是有问题的,首先你是不能独立地操纵你所谓的原因变量,你没法检验,第二有可能你会忽略了其它的预测因子,所以使用交叉滞后模型做因果推论也是需要谨慎的:

the putative causes often cannot be manipulated or cannot be manipulated independently from other variables in the model. In addition,proper causal inference rests on model assumptions such as including all relevant predictors.As noted earlier, this assumption can be difficult to establish.

总的评价就是这个方法可以作为提示因果关系的尝试,但是下因果结论是要审慎的

交叉滞后的时间间隔

通常情况下我们的数据都是等时间间隔的,比如每隔3个月测一次,每隔2周测一次,这种等时间间隔蕴含这一个假设就是x对y的滞后效应和y对x的滞后效应都是等时间间隔的:

Most panel designs measure all variables on a fixed lag schedule. The fact that all variables are measured at the same time implicitly assumes that the time for the cross-lagged effect of X on Y and Y on X is the same

这个假设一定对吗?不好说
所以大家在选择随访时间的时候也需要注意间隔,至少你也得提前找找参考文献嘛。

实例解析

在这个例子中我想要研究母亲的抑郁症状和孩子的内化问题之间的关系,现在的文献中有两种观点:一种是抑郁母亲的孩子更容易有问题,另一种是有问题的孩子的母亲会更容易抑郁,到底哪种对呢?
今天就用交叉滞后面板模型来解决这个问题,我们的数据中抑郁是用21条目的CES-D测的,孩子的内化问题用的是CBCL测得的,在做结构模型之前我们得验证数据的测量不变性(见之前的文章:文献解读:纵向数据的测量不变性和交叉滞后模型(一) 文献解读:纵向数据的测量不变性和交叉滞后模型(二) )结果如下:

交叉滞后分析的结果如下图(p均<0.01),可以用lavaan做,也可以用Mplus做:

从结果数据中可以看到构象间的稳定性还是不错的,母亲抑郁对孩子问题的滞后效应是显著的0.12,就是说在控制了孩子之前问题水平的情况下,母亲越抑郁,孩子就越容易有问题;同时,孩子问题对母亲抑郁也有滞后效应0.2,就是说在控制了母亲先前抑郁水平的时候,有问题的孩子的母亲依然更加容易抑郁。
就是说母亲抑郁和孩子问题是相互的--reciprocity
所以忙活了半天,交叉滞后模型依然没能给我们提示准确的因果方向

Consistent with our previous discussion of the use of panel models for causal inference,we do not see these results as support for a causal effect of maternal depressive symptoms on child internalizing behavior or of child internalizing behavior on maternal depressive symptoms.

这个也是可以接受或解释的:毕竟我们只考虑了两个变量嘛。

The present analyses identify an interesting association that warrants further research, but with only two variables in the model and given the impossibility of manipulating either maternal depressive symptoms or child internalizing behavior, the results should not be used to bolster a causal claim without further supporting evidence.

本文参考文献:

  • Selig, James & Little, Todd. (2012). Autoregressive and cross-lagged panel analysis for longitudinal data.

  • Little, Todd & Preacher, K & Selig, James & Card, N. (2007). New developments in latent variable panel analyses of longitudinal data. International Journal of Behavioral Development. 31. 357-365.

小结

(0)

相关推荐

  • 13种常见的空间计量模型的设定

    一.引言 今天与大家一起学习13种常见的空间计量模型的设定方法.上述模型主要包括: the SAR model with lagged dependent variable(因变量,被解释变量),含有 ...

  • 横向因果与纵向因果——计算社会科学的范式探讨

    摘要:"因果"是各学科共同关心的议题,近年来,大数据时代的到来和人工智能领域的发展使得因果研究受到愈加广泛的重视.自休谟以来,哲学家.科学家从"因果关系"和&q ...

  • 一份使用工具变量回归的AER文章清单, 思路惊奇定会让你脑洞大开!

    稿件:econometrics666@126.com 所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问. 今天,给各位学者整理了一份使用工具变量 ...

  • 丁鹏:多角度回顾因果推断的模型方法

    导语 推断因果关系,是人类思想史与科学史上的重要主题.现代因果推断的研究,始于约尔-辛普森悖论,经由鲁宾因果模型.随机试验等改进,到朱力亚·珀尔的因果革命,如今因果科学与人工智能的结合正掀起热潮.本文 ...

  • 好工具变量太难找:怎么办?

    作者:Alexandra Cirone  2021年4月9日 翻译:向迪   校对:红牛 好工具变量太难找:怎么办? 无论你属于哪个学派,要估计因果关系的影响都是困难的.而HPE研究的一个关键特征是, ...

  • 蔡瑞初、陈微、郝志峰:因果推断与因果性学习研究进展

    摘 要 本文主要从因果推断方法和因果性学习这两个方面介绍和分析了目前国内外相关领域的研究进展,探讨了这两方面研究的发展方向. 关 键 字 人工智能:因果推断:因果性学习:领域自适应 0 引言 因果关系 ...

  • 因果学习新进展:深度稳定学习

    导语 大部分当前的机器学习算法都假设并依赖训练数据和测试数据满足独立同分布的性质,但是在现实应用中测试数据的分布往往不可预见,且易与训练数据分布产生偏移,导致这些算法的准确率显著下降.为了解决这一问题 ...

  • 信息流推荐的用户增长机制

    编辑整理:王洪达 出品平台:DataFunTalk 导读:本文主要从偏向底层的推荐算法角度来阐述信息流推荐系统升级如何助力用户增长.我们知道,内容信息流实际上已经算是信息流中比较小的概念,其中包含图文 ...

  • causalinference: 使用Python做因果推断

    python虽然与R一样都可以做数据分析,但是在计量方面较为薄弱,python更像是干脏活,清洗数据用的.现在慢慢的python也有一些在计量的包,比如causalinference,这个包可以做因果 ...

  • 因果 X:解决多学科领域的因果问题 | 因果科学读书会第三季启动

    导语 "因果"并不是一个新概念,而是一个已经在多个学科中使用了数十年的分析技术.通过前两季的分享,我们主要梳理了因果科学在计算机领域的前沿进展.如要融会贯通,我们需要回顾数十年来在 ...

  • Schölkopf 、Bengio等新作解读:因果表征学习——连接因果和机器学习的桥梁

    处于信息时代的我们,有幸经历了轰轰烈烈的以数据为中心的大数据革命(涉及机器学习,深度学习及其应用,例如 Alpha-Go, GPT-3, 自动驾驶等),深刻改变了我们生活的方方面面.如今另外一场相对不 ...

  • ACL 2021 | 知识引导的事件因果关系数据自动生成框架

    AI科技评论今天介绍一篇发表于自然语言处理领域顶级会议ACL 2021的论文<LearnDA: Learnable Knowledge-Guided Data Augmentation for ...

  • 什么是因果推断 | 集智百科

    本文是对集智百科中"因果推断"词条的摘录,参考资料及相关词条请参阅百科词条原文. 目录 一.什么是因果推断? 二.因果推断在流行病学领域 三.因果推断在计算机科学领域 四.因果推断 ...

  • 当我们在谈论因果机制的时候,我们在谈论什么?

    然而直到现在,学界对因果机制的定义依然众说纷纭.早在十余年前,James Mahoney已经总结出了24种定义.这篇文章的题目叫做Beyond Correlational Analysis: Rece ...

  • 怎样完美地证明吸烟致癌?

    2020-12-10 09:26 集智俱乐部 通过手工推导,我们可以解决包含少量变量的因果推理问题,但对于现实中有几十个或者上百个结点的因果图,当前业界还需要一个可以自动化进行因果推理的演算应用框架. ...