统计学中的频率学派与贝叶斯学派
对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西。这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题。
贝叶斯学派与频率学派是当今数理统计学的两大学派,基于各自的理论,在诸多领域中都起到了重要作用。自20世纪初数理统计学大发展开始,一直到20世纪中叶,频率学派一直占据主导地位,当时诸多大咖如Fisher、K.Pearson等都属于频率学派,而从20世纪中叶以后,贝叶斯学派迅速发展壮大起来,可与频率学派分庭抗礼(我想这也是社会发展的需求,一些问题用原来的方法解决不了,需要一种的新的思维出现来解决问题),由于其发展较新,因此人们也将频率学派称为古典学派。
频率学派与贝叶斯学派的估计思想
对于样本分布
,此时我们要对其中的未知
进行估计,让我们来看看频率学派与贝叶斯学派分别是如何做的。
频率学派:
频率学派认为,对于一批样本,其分布
是确定的,也即是
是确定的,只不过
未知。为什么会有这样的想法?这就要从频率学派的基本宗旨来看了,频率学派认为概率即是频率,某次得到的样本X只是无数次可能的试验结果的一个具体实现,样本中未出现的结果不是不可能出现,只是这次抽样没有出现而已,因此综合考虑已抽取到的样本X以及未被抽取、实现的结果,可以认为总体分布是确定的,不过
未知,而样本来自于总体,故其样本分布
也同样的特点。 基于此,就可以使用估计方法去推断
。
贝叶斯学派:
贝叶斯学派否定了概率及频率的观点,并且反对把样本X放到“无限多可能值之一”背景下去考虑,既然只得到了样本X,那么就只能依靠它去做推断,而不能考虑那些有可能出现而未出现的结果。与此同时,贝叶斯学派引入了主观概率的概念,认为一个事件在发生之前,人们应该对它是有所认知的,即
中的
不是固定的,而是一个随机变量,并且服从分布
,该分布称为“先验分布”(指抽样之前得到的分布),当得到样本X后,我们对
的分布则有了新的认识,此时
有了更新,这样就得到了“后验分布”(指抽样之后得到的分布),此时可以再对
做点估计、区间估计,此时的估计不再依赖样本,完全只依赖
的后验分布了。
频率学派对贝叶斯学派的批评
频率学派对贝叶斯学派的批评主要集中在主观概率及与之相关的先验分布的确定问题上。按频率学派的观点,一个事件的概率可以用大量重复试验之下事件出现的频率来解释,这种解释不取决于主体的认识。频率学派认为主观概率不仅难以捉摸,而且与认识主体有关,没有客观性,因而也就没有科学性,这是不可接受的。
针对频率学派的批评,贝叶斯学派做出了以下回应:
1.主观概率事实上是人们常用的概念。例如人们常说:”这个事儿十有八九能成”,这就是人们的一个主观概率,能做出这样的推测人们肯定是考虑了一些因素的(比如考虑了做事儿的人,做事的方法等),这是有一定道理的。
2.在涉及采取行动并承担后果的问题上,每个人了解的情况不同,对问题所具有的只是也不同,他们采取的最佳行动方案也会不同,在这种情况下,不同的人有不同的先验分布是很正常的,要求所谓的“客观性”反倒没有意义了。
频率学派对贝叶斯学派还有一个批评,样本分布一般都是在频率的意义上来解释的,他们认为,既然贝叶斯学派否定频率观点,为何也会用到样本分布?对于这个批评,贝叶斯学派确实是难以做出让人信服的回答,如果做一个彻底的主观概率论者,就必须把样本分布看成刻画样本取各种值在主观上的信服程度,由于样本是已知的,而贝叶斯学派反对把样本放到无穷多可能样本的背景下去考虑这种做法,故而将主观概率的思想推到极端,贝叶斯学派甚至不能去谈论什么样本分布问题。
贝叶斯学派对频率学派的批评
1.关于概率的频率解释观点。许多问题是没法做重复性试验、是一次性的,严格相同甚至大致相同的条件下的重复事实上是不可能的,比如地震观测,因此在这种条件下统计概念和方法的频率解释完全没有现实意义。
2.频率学派基于概率的频率解释,其所导出的方法(点估计、区间估计、假设检验等)的精度和可靠度也只是大量重复下的平均值,这是在抽样之前就已经确定的(也就是前文所说的
是确定的),这种不顾实际的样本值而在事前就规定的精度和可靠度是不合理的,而且往往是实际情况大相庭径。直观上人们更倾向于接受的是:统计推断的精度和可靠性如何,与试验结果(样本)有关。
小结
尽管贝叶斯学派和频率学派的部分观点受到质疑,但是两大学派如今仍然发挥着比较重要的作用,对实际应用中的一些问题,两种学派的方法都能给出比较准确的解决方案,因此对于我们应用者来说,针对不同的应用场景,使用的合适的方法才是主要的。