极大似然估计、极大后验估计和贝叶斯估计
作者 :stephenDC
本文题目中的三个概念,都属于概率统计领域,但机器学习相关的工作者们,也应该很好地理解并掌握。
有些同学也许会反问,我不了解,也没用过这些东西,工作也做的很好啊?
那好,再来看看下面几个问题。
a. 机器学习中的有参建模,会面临参数估计的问题,最后一般都会变成一个目标函数的优化问题(可以带或者不带约束条件),
那么,请问这个目标函数都是怎么来的?
b. 具体点,交叉熵损失函数,大家都听说过吧,怎么来的?
c. 再具体点,逻辑回归总用过吧,它的目标函数是怎么来的呢?
本文不仅会回答以上问题,而且会尝试对这三种估计方法进行梳理、对比和总结,一如既往地欢迎同行挑错或者拍砖。
问题引出
频率学派 vs 贝叶斯学派
极大似然估计:MLE
极大后验估计:MAP
贝叶斯估计:BE
举个栗子
总结
下面简单对MLE、MAP和BE三者进行一个对比总结:
各自的缺点:
1)MLE的缺点非常明显,就是在数据量很小的时候,会得出很不可靠的估计。
比如,抛硬币2次全部是正面,MLE会得到正面的概率为1。
还有就是,MLE无法从理论层面说明机器学习目标函数中正则项的来由,而MAP给出了理论解释。
事实上,当初统计学家在回归问题中引入L2正则,只是出于防止矩阵病态造成不可求逆矩阵,后来才发现结果居然更好了。
2)MAP的缺点是可能带来计算的困难。
因为MAP优化的是先验和似然的乘积(即后验),两个概率分布的乘积形式通常会变的比较复杂。
正因为如此,贝叶斯学派的学者们提出了很多形式的概率分布,称之为共轭分布。
共轭分布的作用是,让先验乘以似然之后,仍然跟先验属于同一种分布,这样就带来了计算上的方便。
但这一点也正是频率学派所一直诟病的地方,你们贝叶斯学派选择先验没有任何科学依据,只是为了方便计算啊。
3)BE的缺点更明显了,就是计算量过大,因为它要求各个估计的概率加权平均。
在机器学习领域,贝叶斯方法基本等同于“计算量超级大”。不过,有很多近似求解的方法(比如,采样),极大地减小了计算量,拓宽了贝叶斯方法的实际应用范围。
三者之间的联系:
最后,我们来回答导读中的三个问题,
1) 机器学习中的目标函数,代表的是一个信息标准(比如,似然、后验、交叉熵、经验损失等)。
使用什么样的信息标准作为优化目标,代表了我们不同的追求。
比如,我们希望得到一个光滑的模型,就会对导数加惩罚项;我们希望得到简单的模型,就会对模型复杂度加惩罚项。
2) 交叉熵函数来自于训练数据集上的极大似然估计。
3) 逻辑回归解决的是分类问题,其目标函数就是交叉熵。
以上,欢迎留言讨论交流哦。