使用结构方程模型需要知道的那些事（理论篇） / 开普饭

本期与朋友们聊聊使用结构方程模型（structural equation modeling，SEM）分析生态环境数据时需要提前明确的一些问题。本文采用自问自答的形式，共分理论和应用两篇，本期为理论篇。

1. SEM的本质是什么？

按照笔者粗浅的理解，SEM像是一种加强版的、网状的回归分析。其最大特点是，在SEM中某些因变量可以充当其他因变量的自变量，进而形成复杂的、以表达因果关系为核心的网状关系结构。因其是网状结构，应用时通常需要预先构建概念模型，否则难以把握其中的复杂关系。这种多变量间的网状关系就是SEM中的结构。有了结构之后，还要用数学方程进行表达，因此有了方程。同时，由于结构方程模型的主要任务是对概念模型进行验证，而概念模型本身是抽象出复杂自然现象背后的规律。就像我们通过玩具火车来认识真正的火车，所以SEM也是一种模型方法。以上几点组合起来，就是笔者目前理解的SEM。

2. SEM的结果是否必须图示（表示多变量关系的结构图）表达？

是的。SEM想要检验的通常是复杂的多变量关系，因此图示是最佳展现形式。目前所见的SEM大多都通过图示进行展示。

3. 路径分析、通径分析与SEM的关系是什么？

路径分析（pathway analysis）、通径分析（pathway analysis）都算是SEM曾经的叫法。现代SEM在计算方法和纳入潜变量（latent variables）等方面已经与传统的路径分析不同，目前已经很少有路径分析这种叫法了，统一叫SEM。

4. 潜变量、复合变量是SEM必须的吗？

非必须。潜变量多应用于社会学科中，用于表征难以直接测量的原因变量，如心理状态等，与观测变量（observed variables）相对。复合变量（composite variables）则通常是作为观测变量的响应变量，比如结构方程模型的大师James Grace就比较喜欢在生态研究中使用复合变量。笔者目前所见，在大多数生态学的SEM应用中，纳入的变量还是以观测变量为主，潜变量、复合变量等非直接观测变量并未被大规模使用。

举个例子，使用复合变量的参考文献很多是James Grace写的，如：

J. B. Grace, et al. 2016. Integrative modelling reveals mechanisms linking productivity and plant species richness. Nature, 529, 390-393.

复合变量在SEM的图示中要以六边形表示，如下图中的六边形变量即是此引文中的复合变量：

而涉及潜变量的参考文献相对较多，如James Grace作为共同作者的一篇：

K. C. Matteson, et al. 2013. Direct and indirect effects of land use on floral resources and flower-visiting insects across an urban landscape. Oikos, 122, 682-694.

潜变量在SEM的图示中要用椭圆来表示，如下图中的椭圆形变量即为这篇引文中的潜变量：

5. SEM是否超越了相关关系而直接表达了因果关系？

并未达到这种程度。事实上，SEM反映的仅仅是作者根据现有条件和数据构建的一种潜在的可能关系。这一点很可能受到作者本身认知和数据分析过程的影响。因此，尽管SEM在多变量关系的描述中具有一定优势，但这种认识主要是研究者主导的。

实际上目前现代统计学界也没有解决因果推断的问题。SEM中虽然用箭头方向指示了因果关系，但这种因果关系实际上是研究者人为判定和指定的。人们常常是在同一个时间点获取横断面数据，而这种情况下，各个变量之间的因果关系存在于人们的认知里的，或者说存在于已有的一些研究或经验里，在应用SEM时需要研究者指定出自变量与因变量。在分析时，横断面数据主要提供的是相关性信息。如一位老师所言：等到统计分析方法可以自动解决因果推断的时候，很可能各个学科的研究者都要失业了。因此，我们需要明确虽然SEM想要表达的主要是因果关系，但其在技术上并不能超越相关关系的范畴。

想要深入研究的朋友，可以了解下Judea Pearl、Bill Shipley等人，包括Judea Pearl的两本书，The book of why: The New Science of Cause and Effect、Causality: Models, Reasoning and Inference，以及Bill Shipley的Cause and correlation in Biology。虽然附上了这几本书，但实际上笔者目前并没有精力和能力看这些书，这是统计学的前沿问题，还要靠公众号的读者中更多有此能力和志向的大佬来为我们拓荒因果推断！

一个小问题：如果A与B相关，在没有限制的条件下，实际上A与B的关系可能包括哪些？A会导致B；B会导致A；C同时导致了A和B；A与B互为因果；A与B的相关是巧合。

6. 什么时候应该用SEM？

总体而言，当想要研究复杂的多变量间因果关系时，使用SEM最为合适。尤其是想要阐述机制相关问题时，SEM能够较为直观地展现复杂的路径关系。使用SEM需要作者对多变量之间的关系有一定的认识。有一些方法如限制性排序分析（constrained ordination analysis）等也可以进行多变量关系的分析，但SEM从假设检验到结果表达等一系列步骤都更为清楚和直观。如果研究中没有涉及这种复杂的多变量关系，那SEM基本无用武之地。已经进行了SEM后，依然可以对部分变量进行单独的分析。

7. SEM的结果有哪些必备要素？

当前SEM有基本固定的形式，首先要有展示因果关系的图示，还要指出模型与数据的整体拟合情况（如适配度指数）、单个路径的显著性和相对作用的大小、被解释变量的R²等。

8. SEM在应用中存在哪些误区？

误用SEM较为常见。SEM虽然看起来简单，但有一些问题如样本量大小、非连续变量作为内生变量与外生变量如何纳入模型等，都较为麻烦。

笔者遇到最常见的往往是样本量不足的问题，即用很少的样本量构建了复杂的模型，这样就可能出现严重的过度拟合问题，即模型结果并不可信，包括顶尖期刊上也可能出现这种问题。因此，要想正确使用SEM，我们需对这个方法的原理有清楚的认识。

9. 结构方程模型的具体建模方法和工具有哪些？

据笔者了解，目前SEM建模方法主要有三种。第一种，基于实际数据中变量间方差协方差矩阵和概念模型拟合的方差协方差矩阵的比较，对概念模型与实际数据的贴切程度进行评价的传统SEM方法。代表工具为lavaan包、Amos软件等。特点是可以容纳潜变量，但因变量需要满足多元正态分布。第二种，基于一种名为定向分离（d-separation）的方法首先对每个路径进行单独的估计，然后使用特定方法对模型中所有路径的状况进行评价，并寻找出可能的关键缺失路径。相对于传统方法，该方法是一种局部估计方法，其主要特点是因变量可以是非正态数据（如二项、泊松等）。代表工具为piecewiseSEM包。第三种，基于贝叶斯统计方法的SEM模型构建，特点是可以构建复杂的模型。代表工具为brms包等。

目前第一种和第二种还是SEM的主流方法，但随着贝叶斯统计逐渐不再被计算时间所限制，未来使用贝叶斯方法进行SEM建模的应用正在逐渐增多。此外，笔者想过一个方向是Meta分析与SEM的结合。由于Meta分析搜集数据时，不同来源的案例其数据存在精确性的差异，这时需要考虑数据的权重问题。此时如果想在Meta分析数据的基础上进行加权的SEM构建，lavaan、piecewiseSEM等好像目前都无法实现，而基于贝叶斯方法的SEM则在理论上可以实现这个任务。笔者的一点感受是，当前基于贝叶斯统计的Meta分析、SEM、混合模型等统计方法都在迅猛发展和大量应用中，顶级期刊使用贝叶斯统计的文章屡见不鲜，已呈山雨欲来之势。

本篇基本是纯文字推送，能看到最后实属不易。下期将推送SEM实战篇，详述SEM应用的相关问题，推送时间在7月20日左右，特此预告。因笔者水平有限，目前对SEM也仅是略知一二，很多论述可能不尽严谨，还请各位朋友多包涵，欢迎公众号留言或群内讨论。

使用结构方程模型需要知道的那些事（理论篇）

相关推荐