我们做的回归分析,到底是多元回归还是多变量回归?
回归分析,包括线性回归、logistic回归等,当自变量多个的时候,叫多元回归还是多因素回归或者多变量回归?
我想很多发表的文章,甚至写的一些教科书,当自变量多个的时候,这个回归会被称为多元回归!
甚至SPSS统计软件,也会出现多元回归的概念。
最近,我们翻译了Bertha Hidalgo等人在《美国公共卫生杂志》的一篇文章:多元回归还是多变量回归“Multivariate or Multivariable Regression”,来帮助大家理解,我们做得到底是不是多元回归。
本文包括两部分,第一部分是翻译原文,第二分部是郑老师合作团队的理解。
1.原文翻译
一个简单线性回归模型有一个连续性的因变量和一个预测因子,而一个多重或多变量线性回归模型有一个连续的因变量和多个预测因子(连续的或分类的)。
一个简单的线性回归模型可以写成如下的形式:
(1) y = α + β1x1+ ε
(2) y = α + β1x1+ β2x2 + … + βkxk + ε
其中, y是连续性因变量,x是单变量回归模型中的一个预测因子,x1、x2、…xk是多变量模型中的预测因子。
与线性模型一样,logistic和比例风险回归模型可以是单变量的或多变量的。每个模型的结构中都有一个因变量以及一个或多个独立变量/预测变量。
相比而言,多元模型通常是指使用来自纵向研究数据建立的模型,其因变量是在多个时间点对同一个体进行测量所得(重复测量);或者,是使用嵌套/聚类数据所建立的模型,其每个类/层中有多个个体。多元线性回归模型可以写成如下的形式:
(3) Yn×p= Xn×(k+1) β(k+1)×p + ε
该模型评估了多重因变量(即Ys)—多个结局的测量—和一组预测变量(即Xs)之间的关系。
目前多元统计与多变量统计两个概念误用情况如何?
我们在PubMed上使用关键词“multivariate”来检索2010年12月至2011年11月在《美国公共卫生杂志》(American Journal of Public Health)上发表的文章。我们确定了30篇文章,其作者均在文中讲到使用了“多元”统计方法。我们单独地对每一篇文章进行回顾,以评估被定义为“多元分析”的分析方法的类型。
在30篇文章中,5篇(17%)使用了多元模型(如我们在这里定义的),其中有4个来自纵向数据,1个来自嵌套数据;其余25篇(83%)涉及多变量回归分析。Logistic (21/30, 70%)是使用最多的分析类型,其次是线性回归(3/30, 10%)。由此可见,超过80%的文章在我们看来,误用了多元统计这一词组!有趣的是,在30篇文章中有2篇(7%)存在多元和多变量互换使用的情况。这进一步说明了在使用这两个术语时用词规范和统一的必要性。
虽然有些人可能会争辩,多元和多变量的互换使用只是语义上的,但我们相信区分这两个术语对公共卫生领域来说是重要的。一般而言,公共卫生研究中使用的模型应描述为单变量模型或多变量模型,以表明预测因子的数量;描述为线性模型、logistic模型、多元模型或比例模型,以表明因变量的类型(如连续性、二分类、重复测量、事件-时间)。
我们的综述显示,有必要更准确地应用和报告多变量分析方法。而且,这一问题并非公共卫生领域的研究所特有,其他研究领域(如医学、心理学、政治学)也有同样的问题3。因此,我们希望将来在公共卫生领域的文献中看到一个更加清晰的区别,即区别使用“multivariate”与“multivariable”来描述其所使用的统计分析方法。这是一个重要的区别,不仅是为了避免读者之间的混淆,也是为了更准确地告知下一代正在将他们的工作建立在已发表文献上的公共卫生研究人员。
2. 基于文章,我们的理解
因此,平时当只有一个因变量的时候,说成多元回归,是不合适的(至少在医学领域),一般建议叫多变量回归,或者我们中文翻译更多的叫做多重回归,或者通俗来说是多因素回归,如多重线性回归、多重logistic回归。
而SPSS统计软件的多元logistic回归、二元logistic回归是怎么回事呢?这个翻译错的离谱,它既不是多元回归,也不是多重回归。SPSS软件的的二元logistic回归,指的是因变量是二分类变量的logistic回归,多元logistic回归指的是因变量是多分类变量的logistic回归!
更多信息