这篇被引用近4k次的论文教你如何正确的理解和使用相关系数!

小编前几天阅读了一篇论文,名为“A guide to appropriate use of correlation coefficient in medical research” [1],写的简单易懂,并且在医学研究的实践中非常有参考价值,因此决定分享给大家。
虽然相关(Correlation)容易计算和解释,但是它的误用在研究者中也非常的普遍,有些统计学家甚至认为:相关的概念一开始就没有被提出可能会更好 [2]

所以,在最开始,先了解一下到底什么是相关。
相关的定义
在统计学中,相关是一种用于评估两个连续变量之间的线性关系的方法 [2]。
相关系数(Correlation coefficient)可用于评估两个连续变量之间的线性关系的强度,它可以取值 -1 到 +1 之间。
假如相关系数为0,表示两个连续变量之间不存在线性关系;相关系数为 -1或者 +1,表示两者存在完美的线性关系。两者的线性关系越强,数值将会越往 -1 或 + 1 汇聚。
如果相关系数为负数,称为负相关,即当一个变量的数值增加时,另外一个变量的数值将会倾向于下降。而相关系数为正数,称为正相关,即当一个变量的数值增加时,另外一个变量的数值也会倾向于增加。
值得注意的是,如果两个变量之间的关系是非线性,根据统计学的定义,我们不能称它们是相关!
举个例子,假设在线性代数中两个变量之间的关系是:y = 0.5*x^3,可以在R中将其作图:
# 创建数据
x <- -10:10
y <- 0.5*x^3

# 作图
plot(x, y, type = 'l')
title(main = 'y = 0.5*x^3')

如上图:在数学上,x和y当然存在某种联系(y = 0.5*x^3);但是在统计学中,将x和y称为相关就不是非常的恰当,因为统计的相关指的是线性关系
相关系数的类型
主要有两种相关系数:Pearson相关系数和Spearman相关系数

表格来源:[1]的Table 1

(0)

相关推荐