正态性——数据分析中的第一误区

好久没更新博文,今天跟大家聊聊应用统计中一个非常基础,却又非常容易让让人感到困惑与头疼的问题,那就是正态性。(文末附R代码)
正态性的基本概念想必大家都清楚,比如一组数据,如果其频率分布跟下图类似,那么这组数据就较接近正态分布 。在R中,我们也可以非常方便的用shapiro.test()命令来对某一变量是否符合正态分布进行检验。
大多科研工作者也都知道,很多模型如anova, 一般线性模型的前提假设都要求数据要符合正态分布,但问题是这个正态性指的到底是什么?
这个问题非常具有迷惑性,甚至很多概率论和应用统计大学老师也都含糊其辞,云里雾里。那么,今天,咱们就跟大家彻底澄清一下,这个正态性到底所指何物?
我们把这个问题分成几步,一步步来分析。
1)anova和一般线性模型的目的是什么?

首先要明确这个问题,当我们想分析因素x对y有没有影响及其影响强度的时候,就可以采用anova或者线性模型对x和y之间的关系分析。这里还要明确的是,anova和一般线性模型本质上没有区别,实际应用中,二者往往也经常配合使用,线性模型中的r2即可由anova中的相关参数直接算出,这里我们不做讨论。不理解的可以找本书再回顾一番。

2)正态性指的是对y的要求还是对x的要求?

这个毫无疑问,指的是因变量y, 也就是你要分析的那个指标。对x是否符合正态,以及x是分类变量还是连续变量,都没有任何要求。同一模型中,x可以有多个,x也可以既包括分类变量,又包括连续变量(即ancova)。所以我们必须明确,在你做方差分析,或者一般线性回归前,要明确的是y是否符合正态分布,而不是x。

3)正态性检验,是否要对所有的y值(也就是你的全部数据)进行正态性检验?

几乎所有的人(当然也包括当年的我)拿到数据之后,首先做的第一件事,就是把数据输入软件,然后对y做一下正态性检验,其结果往往也是数据严重偏离正态。紧跟着下一幕就是你愁眉不展,抓耳挠腮,一通各种数据转换不亦乐乎,最终也没能很好的解决正态性这个完蛋问题。这是几乎99%的人都曾经感到迷惑的问题。那么,我们到底需不需要对所有的y值进行正态性检验呢?

答案是:

在几乎100%的情况下,对所有的y进行正态性检验都毫无意义。

为什么这么说呢?我们首先看一个标准的线性回归的公式

y=a+bx+ε,    ε ~N(0, σ2)

这里有假设y符合正态分布了么?完全没有,只是假设残差符合正态分布。那么残差符合正态分布,该如何理解呢?其实这个问题,在贝叶斯语境下会更容易理解。比如上述公式在贝叶斯语境下,就变成:

y~ Normal (a+bx, σ2)

也就是说,这里假定,y是符合正态分布的。什么?我不是刚说了假定Y符合正态分布毫无意义么,怎么这里又假定他符合正态分布了呢?

列位看官,别着急,擦亮你的眼睛先,咱们慢慢分析。

在 y~ Normal (a+bx, σ2) 这个模型里, 假定y符合正态分布不假,但这里是假定y符合同一个正态分布么?

非也!这里是假定y符合一系列均值随x值的变化而变化的一系列正态分布,只不过这一系列正态分布的方差都是σ2而已(想想anova和线性回归的第二个前提假设:方差齐次性,慢慢理解下,看是不是豁然开朗了)。

所以说,正态性的本质,是在x相同或者保持不变的前提下,对应的y应该符合一个正态分布。而当x变化的时候,y理论上应该符合一系列的均值由x决定,而方差又相同的正态分布。从根本上说,正态性指的是,当所有影响y的因素(至少是你认为对y影响比较大的那些因素,也就是通常情况下你在实验中设置的x)都固定的前提下,y的值应该是符合一个正态分布的。
在线性模型中,x对y的影响,也就是公式中的bx。当我们把bx完全去除,或者令x保持在某一固定值之后,y就应该服从一个均值固定,且方差为σ2的正态分布。而去除x的影响后的y值,我们可以用y表示,y=y-a-bx (是否减去a无所谓,因为a是一个常数), 这不就是模型的残差么!所以这也是为何第一个公式中,我们要假定模型的残差要符合正态分布。
通常,我们研究某一个指标y的时候,都需要考虑某些因素x对y的影响,而不是仅仅研究y本身的随机波动。所以说,在几乎所有情况下,我们直接对y进行正态性检验是毫无意义的,因为y的变异中掺杂了x对y的影响。所以正态性检验时,我们首先要把这部分影响排除,也就是只对模型的残差进行正态性检验(这是最常用的方法),或者对x相同时对应的y进行正态性检验就可以了。

好了,讲了这么多可能大家觉得还是有点抽象,下面就以一个最简单的案例说明这一问题。

比如,我想了解男女之间体重是否有差别,分别从某一相同年龄段的人群中(人种等其他因素尽可能保持一致)随机调查了1000个男人和1000个女人的体重。然后直接对这2000个体重数据的分布作图,结果如下:
很明显,这是一个双峰曲线,是不符合正态分布的,对这组数据的正态性检验也说明了这一点:
那么怎么办?我就要放弃anova或者线性模型,或者立即开始对体重数据进行各种巧立名目的转换了么?别着急,按我们说的,当x保持一致时(这里也就是性别一致时),y符合正态分布就可以,那么,我们对男、女的体重可以分别作图:
这时我们发现,男女的体重看起来分别都非常接近正态。所以我们可以拿体重对性别做线性回归:

lm1<-lm(weight~sex, data=data)

然后对这个模型的残差进行正态性检验:结果如下:
可见残差完全符合正态分布,模型本身没有任何问题。原始体重数据不符合正态分布,其实是由于性别造成,这也是我们为什么只对模型残差进行正态性检验的原因。

到这里,数据正态性的意义大家都清楚了吧!

事实上,在实际数据分析中,模型的残差真正符合正态分布的情况也很少见(至少我自己一次也没碰到过,当然这时,也可以先对y做下转化,然后再做回归分析)。当你历经千辛万苦,想尽各种办法去改进模型,但残差还是不符合正态分布怎么办呢?一种大家都认可的方案是,我们可以拿模型的残差和拟合值之间重新做一下回归,如果二者没有关系,那就说明你的模型没有什么大问题。残差的正态性,事实上并不是一个非常严格的限定条件,但拟合值和残差没有关系,这一点是一定要确认的。
最后需要说明的是,对于连续变量y(如体重,身高),通常我们可以认为在x固定的前提下,y理论上是符合正态的。但有些变量属于天生混蛋型,无论x怎么保持一致,y都不可能服从正态(比如0,1数据,一个家庭有多少个孩子,一个鸟窝里有多少个鸟蛋,比率数据等等)。对于这类数据,一般线性模型是不适合的,要解决这个问题,我们就需要进入传说中的广义线性模型的范畴了,我们下次有机会再做介绍。
(0)

相关推荐

  • 干货!统计学7种数据分析方法,超级实用

    研究员在图书馆档案中搜索计算机数据库 Hi~盆友们! 今天的内容非常干货,大家一定要看呀~~ 做数据分析,就一定会涉及到统计学的知识.我之前还推了一些统计学相关的基础知识.今天,我会分享7个我们很可能 ...

  • 预测模型第8期 | 连续变量该如何进入模型?

    连续变量纳入模型 如果变量和结果之间的关系是线性的,则可以在回归方程中包含连续变量. 如果没有,可以将其转换为二分变量或有序分类变量,然后将它们放入回归方程中.回归模型中包含连续变量时,应尽可能将原始 ...

  • R笔记:多重线性回归(二)_适用条件考察

    转自个人微信公众号[Memo_Cleon]的统计学习笔记:R笔记:多重线性回归(二)_适用条件考察.书接上回--我们在<<多重线性回归(一)_模型拟合>>一文中已经建立了回归模 ...

  • 【社招面经】某厂数据挖掘岗位一面

    开头依然自我介绍 依照项目发问. 1 异常数据分析.我的简历里写到这条,他让我着重说了一下,然后我介绍了一下捕捉异常数据的方法,都是依据业务给规则来输出的异常.所以面试官问为什么选择用规则而不用异常检 ...

  • 应用SPSS探索性分析,检验数据的正态性分布

    IBM SPSS Statistics探索性分析提供了数据过滤.离群值识别.假设检验等分析功能.在<应用SPSS探索性分析,快速检查数据异常值>一文中,我们应用探索性分析检查到数据中存在着 ...

  • 易心传正:风水咨询中常见的误区

    最近有位女士因为生活不顺,来易心传正咨询风水相关问题,经过一番交涉后,发现该女士虽然买过不少的风水摆件,却对风水认知存在很大误区.相信很多对风水半知半解的朋友会有同样疑惑,今天就帮大家总结一下风水咨询 ...

  • R语言可视化渐近正态性、收敛性:大数定律、中心极限定理、经验累积分布函数

    原文链接:http://tecdat.cn/?p=23777 在我们的数理统计课程中,已经看到了大数定律(这在概率课程中已经被证明),证明 给出一组i.i.d.随机变量 ,其中有 为了直观地看到这种收 ...

  • 名家讲坛|肝豆状核变性治疗中常见的五大误区

    王共强  主任医师  硕士生导师 肝豆状核变性,又称Wilson病(Wilson's disease,WD),是一种由ATP7B基因突变引起的常染色体隐性遗传疾病.WD会导致患者体内铜过度储积,主要影 ...

  • 如何在Power BI中制作正态分布图?

    有星友问,在PowerBI的图表中有没有正态分布图,其实并没有专门的正态分布图表,但并不是不能绘制正态分布图. 正态分布图本质也就是一个折线图而已,只要构造出符合正态分布的数据,画正态分布图与平时生成 ...

  • 业余养兰中的用光误区,2方面去扭正,清楚兰花对光的需求

    业余养兰的一个通病,就是不懂光照.这个误区,往往是业余养兰,在学习养兰的过程中,自然而然的形成.一开始,会把兰花当普通的植物来养,没养多久,兰花被晒坏了.然后,听说兰花需要阴养,怕晒太阳,但这时还不知 ...

  • 儿童性教育启蒙① | 性教育中常见的4个误区,你中招了吗?

    大家好,欢迎来到小十点亲子共读栏目. 小十点从今天起和大家一起分享「父母必读的儿童性教育启蒙课」系列共读节目.孩子的性教育刻不容缓,在此之前,家长应该先接受科学的性教育观念,掌握性教育启蒙要点,帮助孩 ...

  • HR数据分析中常用的21个数据源

    我们通常听到的一个问题是"什么可以用于分析的数据源?" 在本文中,我们将列出HR和更广泛业务中的许多常见数据源,这些数据源将有助于您进行人员分析. HR数据源可以分为3类: 一.H ...

  • 丰水文苑︱熊佳乐:实事求是,拒绝正态(期中考试优秀作文展示1)

    一.原题展现 阅读下面的材料,根据要求写作.(60分) 2021年1月13日,某知名大学软件学院的授课教师吴老师向学院提交了<软件需求工程>课程成绩,学院认为成绩不符合"正态分布 ...