被嫌弃的贝叶斯派的逆袭,没有一个现代人的生活与它毫无关系

多数人第一次听说贝叶斯定理应该是在中学课堂上。那个公式看起来并不复杂,在一众花里胡哨的考点中显得平平无奇。

但是很快,我们就知道了什么叫深藏不露。从高校教材到研究实战,贝叶斯这三个字频繁地出现在信息科学的重要议题中,它甚至从一个定理变成了一种思想。

这样的转变当然不是一朝一夕完成的。在历史上,贝叶斯主义者花了大约两百多年的时间,冲破重重阻力,才让人们看到贝叶斯定理所蕴含的丰富宝藏。

01 不被认可的新思路

贝叶斯定理看起来确实不怎么惊艳,就连提出者贝叶斯本人也不太重视这个成果,甚至没有在有生之年发表它。在他去世两年后,贝叶斯定理才正式进入人们的视线。

事实上,第一位真正的贝叶斯主义者是拉普拉斯。1774年,这位数学家兼天文学家提出了能够从贝叶斯公式推出的拉普拉斯接续法则

▲ 贝叶斯定理

简单来讲,这个法则说的就是,在一件不断重复发生的事件中,人们可以根据以往出现的结果来预判未来的结果。比如,以往太阳天天升起,那么它明天十有八九还是会升起。

但这个体现了贝叶斯式智慧的法则却引来了一大波群嘲。直到19世纪,学界主流仍在批判它。

数学家乔治·克里斯特尔甚至断言,“(这些概率)已经死了,我们应该将它们体面地埋葬在看不到的地方,而不是在课本和试题中介绍它们……我们应该允许自己悄悄忘却伟人的鲁莽之处。”

为什么会这样?

因为在那时,多数人把客观性当作不能碰触的原则。人们认为,你统计到位,计算正确,就可以找到答案,否则就是错了。拉普拉斯接续法则却给概率引入了一定的主观性。

假设我们是远古时代的巨灵,只见过太阳升起五次,如果在这个时候应用拉普拉斯接续法则,那么关于太阳是否会再次升起,我们就会算出一个比较小的概率。随着时间的推移,我们的得数还会变化。在很多人看来,这着实奇葩。

强调客观性的主流学者形成了频率派。依然相信主观性在概率中蕴藏着巨大价值的学者形成了贝叶斯派。

进入20世纪,频率派对贝叶斯派的排挤和打压如此猛烈,频率派的代表人物罗纳德·费希尔甚至用上了“谬误的垃圾”这种极具侮辱性的字眼。

贝叶斯派不得不在夹缝中求生。甚至有时,贝叶斯主义的智慧已经得到证实,贝叶斯派仍然没有机会走到台前。

第二次世界大战

在第二次世界大战期间,艾伦·图灵带领团队破译了德军的恩尼格密码,立下大功。贝叶斯定理在其中发挥了重要作用。可惜这件事涉及太多政治因素,在战争结束后,英国政府选择继续保密。贝叶斯主义失去了一个正名的机会。

在20世纪50年代,英国精算师亚瑟·贝利发现有些同事在使用一些“来历不明”却格外实用的公式。那时的贝利还不知道,这些公式都和贝叶斯定理有着千丝万缕的联系,只是频率派占据着主导地位,把它们全都关在了正统教育的门外。

考虑到贝叶斯主义被排斥了两百多年,很难估计这一类的事件还有多少。但可以肯定的是,再怎么气势汹汹,频率派也无法改变事实。

02 时代给出了答案

事实就是,在频率派无能为力的问题上,贝叶斯派自有妙招。虽然被统计学的小圈子排挤,但在更加注重实干的领域,情况在悄悄改变。

比如,罗伯特·施莱弗和霍华德·赖法借助贝叶斯主义视角提出了包含不确定性的决策论。杰尔姆·科恩菲尔德在研究烟草的致癌问题时实践了贝叶斯统计,得出了重要结论。

美国国家航空航天局也曾聘请掌握了贝叶斯主义工具的机构,预测火箭发射出现重大事故的概率。在所有这些例子中,贝叶斯派理论都比频率派理论更有活力。

终于,贝叶斯派等到了逆袭的最佳的时机,那就是计算机科学的诞生和兴起。20世纪60年代,雷·所罗门诺夫将图灵的可计算性理论和贝叶斯公式结合起来,搭建了人工智能一般性框架的前身。

20世纪80年代,蒙特卡罗方法给贝叶斯公式的实际应用带来了革命。一个名为吉布斯抽样贝叶斯推断的程序更是宣布了贝叶斯主义的胜利。

贝叶斯派迎来新的发展。贝叶斯早已不再等同于一个公式或是一种主张,它的方法越来越先进,理论根系越来越发达。

统计学领域有一句名言:“所有模型都是错的,但有些是有用的。”出自在贝叶斯推断等方面做出重要贡献的统计学大师乔治·博克斯。这句话在某种意义上也成为了贝叶斯主义方法论的体现。

频率派很像老派的经典科学,喜欢强调确定性,而贝叶斯派则更像同样在20世纪掀起争议的量子力学。在频率派看来,参数就算未知也是客观的,而贝叶斯派则会说,参数也是千变万化的。他们深知任何一件事都有数不清的前因后果,寻找绝对客观几乎是不可能的。

既然如此,那就应该以动态的眼光看待模型,甚至想办法尽量多融入一些信息,再针对更为具体的目的产出结果。对于纯粹贝叶斯主义者来说,互不相容的模型不仅可以同时存在,还是件好事。

这种听起来有些不可思议的行事方法却在计算机的帮助下大放异彩。现在,贝叶斯式的智慧已经渗透到了人类社会的方方面面,涉及的领域包括但不限于:医学诊断、保险、金融、人工智能、神经科学、广告、物流、信号处理、航空航天工程……

可以说,没有一个现代人的生活与贝叶斯派毫无关系。

03 用贝叶斯主义者的眼睛看世界

更加令人惊奇的是贝叶斯主义和一些终极问题之间的关联。

图灵-丘奇论题告诉我们,宇宙中的任何东西都不能完成图灵机无法完成的计算。这意味着拥有足够的数据时,通用图灵机可以模拟整个宇宙。

既然如此,未来人们有没有可能拥有科幻小说中那种计算一切的机器呢?能不能用它来破解宇宙中的一切秘密呢?

雷·所罗门诺夫以贝叶斯主义者的方式回答了这个问题。他提出一个有趣的公式,叫“所罗门诺夫归纳法”。这个公式也被一些年轻的贝叶斯主义者称为贝叶斯定理的终极形态。

理论上讲,如果输入的数据中含有某种模式,这个公式最终会找到它,所需时间和所罗门诺夫复杂度成正比。这似乎是一个乐观的结论,然而所罗门诺夫归纳法是不可计算的。计算一切的机器依然要留在人们的幻想里。

那么这个理论还有什么用处呢?

有的,它说明了完备性和可计算性之间的矛盾。所罗门诺夫指出,所有可计算的知识哲学都不可能检测出数据中的所有规律。换个说法,任何可计算的知识哲学都有可能在某种条件下持续给出错误的预测,这和哥德尔的不完备性定理形成了微妙的映照。

即便突破了种种不可能,拥有了满足条件的图灵机,可以运行所罗门诺夫归纳法,宇宙也有办法欺骗我们,只要有一段代码的所罗门诺夫复杂度大于提供的信息量即可。如此一来,即便拥有无穷无尽的计算能力,你也无法确认任何真理。

从另一个角度看,支配自然界甚至人类社会的规律也隐藏着贝叶斯式的逻辑。如果我们对生物学中的洛特卡-沃尔泰拉方程进行一些代数运算,推出支配种群中不同变种所占比例变化的方程,就会发现它和贝叶斯公式有着惊人的相似之处。

自然界的演化智慧创造了人脑,我们现在才开始尝试用人工智能来模仿它。而在人类文明演进的历史中,不同民族、不同背景的人观念和习俗的形成背后,也藏着先验概率和后验概率的强大引导。

既然如此,我们究竟生活在一个什么样的世界里呢?

从贝叶斯派的视角来讲,即便你说“我们的世界是假的,是神的虚拟程序”,这个回答也不必马上被打上“荒谬”的标签。这样宏伟的问题也许永远不会有定论,但假设真的存在所谓的神,那祂一定是个淘气又充满活力的贝叶斯主义者。

写在最后

频率派喜欢说贝叶斯派不客观,或者说持有偏见,但贝叶斯派的智慧恰恰是一种关于偏见的智慧

在现实中,没有谁是全知全能的。有的人因为害怕犯错而不再前进,有的人干脆否认偏见的普遍存在,把经过有限验证的道理当成普适真理。

而贝叶斯派则接受偏见的存在,他们相信,所谓追求真理,就是人们从偏见出发,一步步走向客观的过程。

他们愿意以动态的视角看待真理,也愿意不断学习,不断走出偏见——贝叶斯派的精神就在于此。

关于贝叶斯主义,值得详细了解的内容还有很多。比如贝叶斯主义造就的所罗门诺夫妖,比如贝叶斯方法和过度拟合,再比如贝叶斯大脑。

所有这些内容,你都可以在这本书里找到——《贝叶斯的博弈》

上文作者喵头鹰同学,转自图灵教育,[遇见]已获转发授权

(0)

相关推荐