如何通俗的理解协方差、相关系数?

来源:硬数据

Part1 方差

之前介绍了方差是用来刻画数据波动性的统计量,那么协方差就是描述两个变量之间的变动关系。
通俗地理解为:两个变量是同向变化?还是反向变化?同向或反向程度有多少?
X变大,Y也变大,说明两个变量是同向变化的,这时协方差就是正的。
X变大,Y变小,说明两个变量是反向变化的,这时协方差就是负的。
并且从数值大小来看,协方差的绝对值越大,则两个变量同向或反向的程度也越大,即有较强的相关。
公式的计算很简单,每个X与其均值之差乘以Y与其均值之差得到一个乘积,再将其都加起来求个均值即可。
比如有两个变量X,Y,观察7个样本,画出他们的变化情况,并且很明显是同向变化的。
可以发现每一时刻的值与的值的正负号相同(比如t1时刻,他们同为正,t2时刻他们同为负):
于是当他们同向变化时,与的乘积为正。这样,当你把7个时刻的乘积加在一起,求平均后也就是正数了。
如果反向运动
很明显,的值与的值的正负号相反,于是其乘积就是负值,计算出来的协方差也就是负数了。
上面说的两种情况比较特殊,很多时候XY两个变量的变动没有规律,比如:
这种情况下某些的值与的值乘积为正,某些的值与的值乘积为负。
加在一起后,其中的一些正负项就会抵消掉,最后平均得出的值就是协方差,通过协方差的数值大小,就可以判断这两个变量同向或反向的程度了。
所以,在7个样本中,与的乘积为正的越多,说明同向变化的次数越多,亦即同向程度越高,反之亦然。
总而言之,
若协方差为正,则X和Y同向变化;
反之协方差为负,则反向变化;
协方差绝对值越大表示同向或反向的程度越深。
其实方差也是一种特殊的协方差,只不过是X和X之间的协方差。

Part2 相关系数

相关系数的公式为:
其实就是用X、Y的协方差除以X和Y的标准差。
所以相关系数可以看成剔除了两个变量单位的影响、标准化后的特殊协方差。它可以反映两个变量变化是同向还是反向的,同向为正,反向为负。
并且它又是标准化后的协方差,则它出现最重要的目的来了,就是消除两个变量单位的影响,使得不同变量的相关系数之间具有可比性。
比如下面两种情况,关注一下纵轴的刻度:
很容易可以看出两种情况下X和Y都是同向变化的,并且它们变化的方式都大致相同,在特定的样本点同为正或同为负,那么它们理应具有相同的相关关系。于是可以计算一下他们的协方差:
第一种情况下:
[(100-0)×(70-0)+(-100-0)×(-70-0)+(-200-0)×(-200-0)…]÷7≈15428.57
第二种情况下:
[(0.01-0)×(70-0)+(-0.01-0)×(-70-0)+(-0.02-0)×(-200-0)…]÷7≈1.542857
协方差差了一万倍,只能看出两种情况都是正相关的,但是我们能说第一种情况就相关性更强吗?
在上面两种情况中,虽然X和Y的变化方向都相同,但是每次变化的幅度不相同,主要原因是单位的不一致引起的。
所以,为了能准确比较两个变量的相关程度,我们就要把变化幅度对协方差的影响中剔除掉,也就是要去掉单位的影响,于是就要使用相关系数。
那么如何剔除变量变化幅度的影响呢?很自然的就应该使用前面提到的方差和标准差了!
相关系数是协方差除以标准差,当X或Y的波动变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,相互抵消,变小时也亦然。
于是相关系数不像协方差一样可以在实数域上取值,它只能在+1到-1之间变化,具体为什么是+1和-1,可以自行Google柯西-斯瓦茨不等式。
总之,对于两个变量X、Y,
当他们的相关系数为1时,说明两个变量线性相关程度最大,两个变量存在线性关系。
随着相关系数减小,两个变量相关程度也变小。
当相关系数为0时,两个变量的线性无关,但要注意,无关不一定独立。
当相关系数继续变小,小于0时,两个变量开始出现反向相关。
当相关系数为-1时,说明两个变量线性相关程度也最强,不过是相反的线性相关,反相变化。
让我们再回到前面X和Y的例子,用相关系数来衡量相关程度:
X的标准差为
Y的标准差为
于是相关系数为
说明第一种情况下,X和Y有极强的相关性,几乎是线性相关。
那第二种情况:
X的标准差为
Y的标准差为
于是相关系数为
在第二种情况下,X的标准差较第一种小了10000倍,即变化幅度小了,但是并不改变X和Y线性高度相关的事实。
两种情况的相关系数相等,X和Y具有相同的相关性,故而使用相关系数来衡量和比较相关性,要比协方差合适很多。
在第二种情况下,X的标准差较第一种小了10000倍,即变化幅度小了,但是并不改变X和Y线性高度相关的事实。
两种情况的相关系数相等,X和Y具有相同的相关性,故而使用相关系数来衡量和比较相关性,要比协方差合适很多。

觉得还不错就给我一个小小的鼓励吧!

(0)

相关推荐

  • 最小二乘法——线性回归背后的数学,探究其公式的诞生过程

    你可能听说过比萨斜塔的故事.在建造过程中,塔开始逐渐向一边倾斜. 假设吉诺( Gino),其中一位工程师,想预测塔的未来倾斜度.他想知道倾斜度是否会增加,到明年会增加多少.吉诺的唯一信息是下面的表格, ...

  • 相关分析方法

    Day 15:相关分析:直线相关VS秩相关隶属第四章:现况调查的统计分析策略无论实验性研究还是观察性研究,都少不了相关分析的身影,尤其是现况调查和队列研究.在现况调查中,相关分析往往可以用于多个指标之 ...

  • 如何通俗地理解“未实现内部交易损益”?

    未实现内部交易损益,简单来讲,就是内部交易产生的损益,比如母子公司之间的交易,母公司卖货物给子公司赚的钱就是内部交易未实现的损益,因为母子公司视同一体,他们之间的交易是不认可的,所以相关的损益是未实现 ...

  • 如何通俗的理解电流,电压,电阻,电容和电感?

    其实也没那么难理解,就好比我们每一个人都精通一门手艺似的,接触的多了也就觉的不难了,但对于没接触过的陌生的东西你会觉得难以理解. 为了让大家直观明了的理解这几个专业用语,我们就开门见山了.在这里我就做 ...

  • 如何通俗地理解利得?

    2006 年2月,财政部发布了新的基本准则以取代1993年颁布的<企业会计准则-基本准则>,对原基本准则中规定的会计目标.一般原则.会计要素和财务报告等方面进行了修改,其中很重要的一项变动 ...

  • 如何通俗地理解“摊余成本”?

    摊余成本,是指金融资产或金融负债的初始确认金额作以下调整后的成本: (一)扣除已偿还的本金: (二)扣除已计提的减值损失. 摊余成本的摊是指摊销,可以简单理解为剩余成本.

  • 如何通俗地理解实体理论?

    经济实体理论(Economic Entity Theory)认为: 子公司虽然为母公司所购买,但是其本身依旧是一个不可分割的整体. 其主要特征为: (1)市价成本分摊到子公司的所有资产和负债(包括少数 ...

  • 如何通俗地理解所有权理论?

    所有权理论(Ownership Theory)认为: 母子公司之间的关系是拥有与被拥有的关系,编制合并报表的目的,是为了向母公司的股东报告其拥有的资源(这里所说的资源是一种净资源). 根据这一观点,当 ...

  • 如何通俗地理解母公司理论?

    母公司理论(Parent Company Theory)认为: 从控制的角度来看,母公司对子公司的控制不仅限于属其所有的部分,也包括少数股权的应享份额,因此纳入合并报表的是子公司的全部资产与负债. 其 ...

  • 如何通俗的理解新零售?

    如何通俗的理解新零售?新零售环境下有6个方面发生了变化,分别是产品.供应链.渠道.战略定位.用户经营.品牌. 一.产品不再是单独的产品,产品是与用户建立联系的手段.举个例子,小米卖个电视.卖个手机给你 ...

  • 集合竞价的本质, 通俗易理解

    股票集合竞价的标准概念是将多笔委托报价或一时段内的全部委托报价集中在一个时间段成交.成交后的那个价格就是开盘价或者收盘价. 通俗说就是集合竞价不是正式交易,它是变动的,就类似开盘前的一场拍卖会,大家对 ...