张驰咨询:趣说正态分布(1)-六西格玛管理
第1篇《一个小P值就能帮你解决客观专业选择供应商的大问题》讲到质管部采用双样本t检验分析两家供应商所供编织袋的拉力均值是否存在差异,一个P值就能解决客观专业选择供应商的问题。
第2篇《一个小P值就能帮你解决客观专业选择供应商的大问题(续)》以简单的逻辑讲解了进行双样本t检验之前为何要进行正态性检验和等方差试验,以及怎么判断双样本t检验得出的结论。提及3种对两总体均值差异的区间估计的情况都是两总体服从正态分布的情况。
三种区间估计都是两总体服从正态分布的情况,既然正态分布这么重要,本篇开始以实例+图形的形式为您趣味讲解正态分布。
PS:纵观正态分布在整个六西格玛分析阶段所占据的地位,绝对是值得浓墨重彩的,对正态分布的深度理解有助于我们日后理解几个σ,长期能力和短期能力,漂移,假设检验,拒绝域,中心极限定理等等知识,后续将一一呈文。
既然想弄清楚正态分布这件事,那我们就学学瑜伽老师放松放松,耳畔仿佛传来林志玲绵柔悦耳的声音“放松放松,放得很松很松”,来个深呼吸,以愉悦的心情进入状态。
先回顾一下上一篇《一个小P值就能帮你解决客观专业选择供应商的大问题(续)》说到关于对两总体均值差异的区间估计通常有3种情况:
①两个总体均服从正态分布,且两个总体的方差都已知;
②两个总体均服从正态分布,且两个总体的方差相等但均未知;
③两个总体均服从正态分布,两个总体的方差不相等且均未知的情况。
小潘从逻辑上完全明白了怎样用双样本t检验并以一个P值就解决了客观专业选择供应商的问题,从逻辑上清楚了为什么进行双样本t检验之前要进行正态性检验和等方差试验,领略到了P值在正态性检验、等方差试验和双样本t检验中的威力,清楚了怎么理解置信区间中的数据,但是还有一点不理解:为什么讲来讲去,3种情况都必须是两总体均服从正态分布的情况,方差还有已知未知相等不相等的情况,为何就没有不服从正态分布的情况呢?拿非正态分布的数据进行双样本t检验,也能出结果呀。如果做正态性检验的时候,数据不服从正态分布会怎样?
小潘找来了好几本有关正态分布的书,可是越看越发懵圈,都说数学是最严谨的、逻辑性最强的学科,好歹正态分布是4个汉字,从字面理解再看看“中间高两端低左右对称的钟型分布”图形,本来都几乎快要参悟到了,好多书一开篇就来个正态分布的密度函数:
(正态分布的密度函数)
小潘心想:太讨厌了啦,哪怕x=1,又是e,又是π的,还来个σ和μ,谁算得出来哟,真搞不明白算不出来的公式写出来干嘛?这一堆符号不是来给我一个入职至今工作100天的下马威的吧,简直比那个早上把我从美梦中惊醒的闹钟还讨厌。
抱怨了一通,小潘舒了一口气,心情舒畅了许多。想到之前质量主管小王讲解双样本t以后,本来复杂的双样本t就变得简单。是的,我堂堂一个大学生,看个P值谁不会呀。可现在这么复杂的密度函数跟我们进行供应商分析又有什么关系呢?好期待能看到一篇非数学非统计专业能看得懂的关于正态分布的推文。
怀揣着期许,小潘又来请教完成了张驰咨询黑带培训的质量主管王一君。
小潘这次一改以前学梁经理直呼小王的称呼,尊称道:王工,您能不能帮我点拨一下正态分布的基础知识,我看了好几本书了,好像懂了,一会又懵了,本来看例题好像懂了开始查正态分布表,有些书写随机变量x,有些书写随机变量Z,有些写Ф(x),有些写f(x),有些写a,有些写Ua,这么多符号,又把我弄糊涂了。
质量主管王一君微微一笑,安慰道:不要紧,我每天给你讲几个正态分布相关的知识点,分几次举例讲清楚。
小王突然走在窗台前仰望天空,充满诗意的说:正态分布有如一个预言家,让许多看似纷乱的数据变得有序,不仅有序,还能被预测。
讲完走回到电脑桌前,打开电脑,比划了一通以后指着2张图说:不信你看,你相信下面2张图是出自同一组数据吗?第二张图中的红色曲线就是正态分布的概率密度曲线。
小王一句话提起了小潘莫大的兴趣。确实,光看这两张图,如果说是同一组数据的话,初步的感觉确实是正态分布把看似纷乱的第一张图变得整齐划一。一直以为数学是索然无味的,没想到经小王这么一点拨,发现了些许数学之美。
讲正态分布的书很多很多,基础知识就不用赘述了,小王依然试图以逻辑+简单实例+图形,用他自己的理解方式来给小潘解惑。
首先,为什么称之为“正态分布”。
从字面简单的理解就是有异于“变态”“偏态”“异常”的正常数值的正常型态的分布。(在后续讲样本代表性对均值和方差的直接影响的时候解释“异常”数据。)
我们日常所见的很多自然现象,例如我们上两篇推文分析的拉力,衣食住行中的衣服码数,人的饭量,酒店价格,住客人数,成年人的鞋码,身高,体重,考试成绩,收入,各种各样的误差,上班到达公司时间,路程时间,系统服务时间,长度,直径等等,这些连续型随机变量的数值分布正常都会在平均值附近特别密集的出现,而两端较稀疏,这种分布情况就是正态分布。
小王说:你的拦路虎又是e,又是π的,还来个σ和μ,咱们先不管这些符号。瞧瞧下图这条鲜红色的优美的“中间高两端低左右对称的钟型分布”曲线,你猜猜这是什么数据?
小潘一边问:什么数据?一边看图,标题是“小潘下厂用时的运行图”,再看看第二张图“小潘下厂用时的直方图”,小潘一阵惊讶,又瞄了一眼直方图的样本数N=100,脸刷的一下变得通红。
(小潘下厂用时的运行图)
(小潘下厂用时的直方图)
到生产车间检查实际生产是否符合工艺情况是质管部的职责,这是小潘的日常工作。小潘故作镇定,轻描淡写地说:哦,我下厂检查生产工艺的时间呀。对,我今天正好入职工作100天,没想到您把今天也记录下来了。
(小潘下厂用时)
小王说:我们来统计你下厂检查生产工艺用时51-61分钟的概率。
先从笨方法开始,让你有个直观认识。
看图x取值在51-61分钟的有5根柱子,高度对应的y轴频率分别是6,8,10,14,10,合计48,你工作了100天,5根柱子的占比为48/100=48%,即你工作100天中单日下厂时间在51-61分钟的概率是0.48。
你有没有发现从图上我们大致可以直观看出,红色钟型曲线几乎涵盖了所有柱子,本例中柱子高表示次数多占比大对应的钟型曲线的Y值也大,中间均值对应的Y值达到峰值,柱子矮表示次数少占比小对应的钟型曲线的Y值也小;本例记录数据100次,现在图形上共有14根柱子,所有柱子的次数加起来应该是多少?100次,所有柱子占比相加=100%。实际上每根柱子的占比就是钟型曲线在柱子对应的区域所涵盖的面积,所有柱子占比相加=1,也就是说,钟型曲线涵盖的所有面积=1。我们说过,钟型曲线就是概率密度曲线,那就是概率密度曲线下的总面积=1。
我们要预测一下你明天下厂检查生产工艺用时51-61分钟的概率。
当你在这里上班的日子越来越多,可分析的数据也越来越多,数据越多,钟型曲线越接近柱子,可以理解成千千万万根密密麻麻的柱子组成。假设我们就以这100天的数据来预测你今后下厂的时间。计算钟型曲线下面相应的区间(51,61)的面积,在数学上的表达就是51<X≤61的概率,在数学上的计算方法就是求密度函数在区间(51,61)的积分。概率的大小就是概率密度函数曲线下相应区间的面积的大小。
如果你觉得书上写区间(a,b)不好理解的话,就回想我们这个实例,这里a=51,b=61,有具体例子具体数据自然就会比较有代入感,如果正好是你日常熟悉的事物,想想你每天下厂的时间,再看看图形,大概概率都心中有数了。
下厂时间x是连续型随机变量,要估算的数据可以是x轴上的任意区间数值,x取值不一定是整数,概率密度曲线下的区间面积就是概率,从图上你能看出来你下厂时间在59.655.719即区间(53.931,65.369)的概率吗?
小潘白了小王一眼,也不提笔,她知道小王既然说了先不要管这又是e又是π的概率密度函数,一定不需要再傻傻地计算,可能是要引出标准正态分布吧。小潘不确定她想的对不对,只好说:(51,61)是整数,5根柱子好理解也好算,概率0.48,好不容易有点明白了,你现在给我整个53.931,我晕。
小王呵呵一笑,答:概率是0.68,准确的说0.6826。
小潘充满好奇,突然若有所悟,急忙翻了翻书上标准正态分布函数表1.0对应的,有点失望,是0.8413,不是0.68,又泄气地追问:为什么?
未完待续,期许您在笑声中了解本文关于正态分布的主要知识点:
①列举了一些服从正态分布的连续型随机变量;
②正态分布的概率密度曲线是一条中间高两端低左右对称的钟型分布曲线;
③钟型曲线在区间(a,b)对应的区域所涵盖的面积就是X在a~b范围出现的概率。该知识点有助于后续理解假设检验中的拒绝域;
④概率密度曲线与X轴围成的总面积=1。该知识点有助于后续学标准正态分布及查标准正态分布函数表。
原文来源张驰咨询:未经作者同意,如有转发需要必须在文章中给出原文链接,否则必究!