趣谈概率 | 我们的直觉,往往和真实的概率大相径庭
这本书的全名是:趣谈概率——从掷骰子到阿尔法狗。这本书的作者张天蓉,是一位女士,美国德州奥斯丁大学理论物理博士,虽然她的知识渊博,但她出版的书籍都深入浅出,哪怕是小白也特别容易看懂。我将用两周的时间,为大家领读这本书。
概率论诞生于17世纪,源于一场赌博。发明概率论的法国的数学家帕斯卡,首先我们科普一下帕斯卡这个人。帕斯卡是一个神童,12岁的时候就发现了几何学里边的一个规律,三角形的三个角之和等于180度,如果你对数学有研究的就知道,这个正是在欧几里得的《几何原本》证明过的第32条定理。在16岁的时候,帕斯卡创作了论文《圆锥曲线专论》,证明了:圆锥内曲线内接六边形,它的三对底边延长线的交点,在一条直线上。这个就是帕斯卡定理。当时的专家学者感觉太不可思议了,是不是真的他证明的啊?甚至还怀疑是不是他父亲代写的?
除了对数学方面的成就,帕斯卡在物理领域也有很大的贡献,他用水银柱测量气压,水银柱越高,说明气压越高。经过无数次实验,证实了水银柱的高度随着海拔的高度减少。后人为了纪念帕斯卡,就把气压的单位用“帕”表示。说句题外话,我当年做软件开发的时候,接触过一门编程语言,是Pascal,也是以帕斯卡的名字命名的编程语言,由此可见帕斯卡在历史上的地位多高。其实,这些都不是本书的重点,帕斯卡最伟大的地方,就是创立了概率论。概率论怎么诞生的呢?我们就从一场贵族的赌博游戏说起。
1 赌博中途退赛,如何分钱?
当年有一位贵族,特别喜欢赌博,尤其是掷骰子的游戏。当然,他在玩的过程中,也会思考一些相关的数学问题。1654年,他向帕斯卡请教一个亲身经历的分钱问题。这个问题大概是这样的:贵族约了一个赌友各自拿出10元出来对赌,谁先赢了就可以把20元全部拿走。他们怎么对赌呢?比如说是抛硬币,抛到正面的就是贵族赢1分,反面的就是赌友赢1分,谁先拿到10分的,就赢得全部赌金。问题来了,当对赌进行到中途,贵族得到8分,而赌友也获得7分的时候,贵族有点急事要出去处理,这场赌博就不能进行下去了,此时此刻,这20元应该怎么分?
如果说,把这20元都物归原主,那么贵族肯定不干,因为他都赢了8分,还有2分就胜利了;如果说就判贵族赢吧,那赌友肯定不干,他也赢了7分,虽然比贵族少了1分,但还没到最后,谁说他一定会输呢?如何分钱,才算是合理呢?
前面得了多少分,这个已经是确定性的了,如何分钱是取决于后面得分的可能性,所以要重点关注后边几局,要是贵族再得2分,就赢得赌局;反之要是赌友再得3分,就是他赢。只要再比4次,就可以分出胜负。所以,帕斯卡所有可能发生的情况,都排列组合一遍,我们把贵族看作是甲方,而赌友看作是乙方,一共有16种情况,能够让甲方赢的有11种,而让乙方赢的有5种。
这也就说明,贵族最终赢的胜利的概率是11/16,而赌友赢的概率是5/16,再把这个赌金重新乘以这个概率,我们可以得出;贵族应该拿回13.75元,而赌友拿回剩下的6.25元,问题解决了!
2 真实的概率,可能跟我们的直觉大相径庭
在年初的时候,在某个小区做了全员核酸检测,张三“幸运地”检测出了阳性,这个结果把他吓了一跳,到底张三有没有中招呢?我不知道核酸检测的准确率是多少,姑且假定为“1%的假阳性率,1%的假阴性率”,也就是说,本来是阳性,检测出阴性的概率是1%,或者本来是阴性,检测出阳性的概率是1%。那么,对于中招的人来说,99%真的是阳性,而没有中招的人,也有可能1%是假阳性。所以,张三被拉去隔离了。
在隔离的时候,张三跟医生交谈,内心害怕得要命。他恰好遇到一个懂数学的医生,告诉他:怕啥呢,这种好事没这么容易轮到你!张三说:“不是啊,检测出来的结果,不是99%的概率正确的吗?”医生笑了笑,说道:别忘了,真正被感染的人,也许1000个只有一个,所以你中招的概率,并不是99%。那么,到底是多少呢?
我们从概率论去分析,因为核酸检测的误报率是1%,所以说在1000人里边,有10个是误报的,只有1个是真正的中招(真阳性只有1个)。所以,11个人里边,只有1个是真正的阳性,所以张三中招的概率,不是99%,而是1/11=0.09%!这个过程怎么推算的呢?考虑到大多数人看公式不一定能看懂,你就记住这个答案可以了。总之,因为真正是有病的人概率很小的,哪怕它检测出来99%准确,其实中招的概率也并不大。
如果说,核酸检测离我们太远,不足以说明真实的概率,跟我们的直觉有很大的差异,那么再看看我们常见的情况。比如说抛硬币,要是你连续5次抛出的都是正面,那么你可以告诉我,第6次是正面还是反面呢?这也许就有两种声音:第一种,既然前面这么多次都是正面,那么还是正面也很合理啊;第二种,都已经出了这么多次正面了,下一次是不是应该来一次反面呢?但是,我想说的是,这两个想法都是错的!为什么呢?假如没有前面5次抛硬币的结果,你觉得是正面还是反面呢?这就不确定了!只要这个硬币没有做过手脚,每一次抛出正反两面出现的概率,都是50%,跟上一次的结果并没有任何关系。
只要抛硬币的次数足够多,正反两面出现的概率,都会出现50%!问题来了,是不是我们可以认为,“风水轮流转”呢?有很多人研究彩票的时候,都会很认真分析每一期开出的数字,试图从中找到规律,比如说,某个冷门的数字好像很久没有开过奖了,这一期会不会开它呢?但我想要说的是,研究彩票规律,都是妥妥的无用功!你可以认为,每一期数字出现的概率是相等的,但要多少期才会出现对等的情形呢?答案是——无穷大!你想要通过“风水轮流转”来实现中奖的目标,你要么就是有无穷多的钱,要么就是有无穷大的寿命,而且彩票公司还不能破产。
古语有说“善有善报恶有恶报”,这句话正确吗?如果单纯是从古典概率来说,这绝对是扯淡。某个人做了好事,但并没有记载下来,所以做了跟没做,结果都是一样的;同样道理,一个人做了坑蒙拐骗的事情,只要没有被人逮到,换了一个环境,同样还是会得逞。做好事并没有感动上天,做坏事也并没有人会知晓,在这种情况下,其实并不成立。当然,现在是大数据的时代,你做过的事情,不论是好事或者坏事,都会记录下来评判一个人,就需要用到贝叶斯定律,这个我们再下一篇会讲到。
3 正态分布:印在钞票上的函数图形
如果说,有一张钞票,印有函数的图像,你相信吗?德国的10马克钞票,就印有高斯的头像,以及他的伟大发明,正态分布的函数图形,由此可见,正态分布的价值有多大。我们观察一下这个函数图像,中间大,两边小。这意味着什么呢?
我们还是拿抛硬币的例子来说吧,假如你抛硬币抛4次,会有多少次的正面呢?这就有16种组合,其中一个正面都没有的,只有1种组合;全部都是正面的,也是只有1种组合;出现一个正面的,或者三个正面的,分别有4种组合;出现2个正面的情况最多,有6种组合。我们把这个组合图形画出来,是不是就是一个正态分布图像,中间大,两边小?
说了这么多,到底正态分布跟我们生活有什么关系呢?其实关系大着呢!比如很多人吃自助餐,总想把人家的自助餐厅吃垮。到底能不能把人家的餐厅吃垮呢?为了简化期间,我就只假设自助餐的价格是每个人88元,它是根据什么来定这个价格的呢?作为餐饮行业,保守估计,好歹也得赚一半吧,那它的成本是每个人44元这样子。在配食材之前,它就会用到正态分布,中间的那个峰值就是44元,这就是一个均值,至少有68%的人,都在44元这个范围内波动。你想要吃垮自助餐,就得吃得超过这个成本价。虽然说,偶尔会有几个人能够吃超这个成本,也顶多是在68%~95%这个范围内波动。
也就是说,你想要吃垮自助餐,除非你的食量惊人,超过95%以上的人,要不然吃垮只是一个传说。你能确定自己的食量这么拔尖吗?哪怕偶尔有这么几个像你这样有256G的胃口,但毕竟占5%左右,对于自助餐厅而言,根本是无伤大雅。
从另一个方面看,自助餐厅的定价也是很讲究的,如何能够实现盈利呢?最重要的,就是人多,毕竟食材的成本都是固定的,越多人来付餐费,钱就赚得越多。所以,他们价格不能定得太高,因为太高的话,来就餐的人就少了;如果说定价低了呢,跟这个平均食量不匹配,那真的就会有大量的大胃王涌入,这回真的是会被吃垮的。所以说,要是你做自助餐的老板,也得好好琢磨一下正态分布的模型。
好了,今天我们就先聊到这里,主要是谈论了相互独立的概率;但是,每一件事情往往是有关联的,这就要用到贝叶斯定理。关于这个话题,我们下一篇再谈。我是@狂人先生,我们下一篇不见不散!