极大似然估计、极大后验估计和贝叶斯估计

作者 :stephenDC

本文题目中的三个概念,都属于概率统计领域,但机器学习相关的工作者们,也应该很好地理解并掌握。

有些同学也许会反问,我不了解,也没用过这些东西,工作也做的很好啊?

那好,再来看看下面几个问题。

a. 机器学习中的有参建模,会面临参数估计的问题,最后一般都会变成一个目标函数的优化问题(可以带或者不带约束条件),

那么,请问这个目标函数都是怎么来的?

b. 具体点,交叉熵损失函数,大家都听说过吧,怎么来的?

c. 再具体点,逻辑回归总用过吧,它的目标函数是怎么来的呢?

本文不仅会回答以上问题,而且会尝试对这三种估计方法进行梳理、对比和总结,一如既往地欢迎同行挑错或者拍砖。

问题引出

频率学派 vs 贝叶斯学派

极大似然估计:MLE

极大后验估计:MAP

贝叶斯估计:BE

举个栗子

总结

下面简单对MLE、MAP和BE三者进行一个对比总结:

各自的缺点:

1)MLE的缺点非常明显,就是在数据量很小的时候,会得出很不可靠的估计。

比如,抛硬币2次全部是正面,MLE会得到正面的概率为1。

还有就是,MLE无法从理论层面说明机器学习目标函数中正则项的来由,而MAP给出了理论解释。

事实上,当初统计学家在回归问题中引入L2正则,只是出于防止矩阵病态造成不可求逆矩阵,后来才发现结果居然更好了。

2)MAP的缺点是可能带来计算的困难。

因为MAP优化的是先验和似然的乘积(即后验),两个概率分布的乘积形式通常会变的比较复杂。

正因为如此,贝叶斯学派的学者们提出了很多形式的概率分布,称之为共轭分布。

共轭分布的作用是,让先验乘以似然之后,仍然跟先验属于同一种分布,这样就带来了计算上的方便。

但这一点也正是频率学派所一直诟病的地方,你们贝叶斯学派选择先验没有任何科学依据,只是为了方便计算啊。

3)BE的缺点更明显了,就是计算量过大,因为它要求各个估计的概率加权平均。

在机器学习领域,贝叶斯方法基本等同于“计算量超级大”。不过,有很多近似求解的方法(比如,采样),极大地减小了计算量,拓宽了贝叶斯方法的实际应用范围。

三者之间的联系:

最后,我们来回答导读中的三个问题,

1) 机器学习中的目标函数,代表的是一个信息标准(比如,似然、后验、交叉熵、经验损失等)

使用什么样的信息标准作为优化目标,代表了我们不同的追求。

比如,我们希望得到一个光滑的模型,就会对导数加惩罚项;我们希望得到简单的模型,就会对模型复杂度加惩罚项。

2) 交叉熵函数来自于训练数据集上的极大似然估计。

3) 逻辑回归解决的是分类问题,其目标函数就是交叉熵。

以上,欢迎留言讨论交流哦。

(0)

相关推荐