极大似然估计、极大后验估计和贝叶斯估计 / 开普饭

作者：stephenDC

本文题目中的三个概念，都属于概率统计领域，但机器学习相关的工作者们，也应该很好地理解并掌握。

有些同学也许会反问，我不了解，也没用过这些东西，工作也做的很好啊？

那好，再来看看下面几个问题。

a. 机器学习中的有参建模，会面临参数估计的问题，最后一般都会变成一个目标函数的优化问题（可以带或者不带约束条件），

那么，请问这个目标函数都是怎么来的？

b. 具体点，交叉熵损失函数，大家都听说过吧，怎么来的？

c. 再具体点，逻辑回归总用过吧，它的目标函数是怎么来的呢？

本文不仅会回答以上问题，而且会尝试对这三种估计方法进行梳理、对比和总结，一如既往地欢迎同行挑错或者拍砖。

问题引出

频率学派 vs 贝叶斯学派

极大似然估计：MLE

极大后验估计：MAP

贝叶斯估计：BE

举个栗子

总结

下面简单对MLE、MAP和BE三者进行一个对比总结：

各自的缺点：

1）MLE的缺点非常明显，就是在数据量很小的时候，会得出很不可靠的估计。

比如，抛硬币2次全部是正面，MLE会得到正面的概率为1。

还有就是，MLE无法从理论层面说明机器学习目标函数中正则项的来由，而MAP给出了理论解释。

事实上，当初统计学家在回归问题中引入L2正则，只是出于防止矩阵病态造成不可求逆矩阵，后来才发现结果居然更好了。

2）MAP的缺点是可能带来计算的困难。

因为MAP优化的是先验和似然的乘积（即后验），两个概率分布的乘积形式通常会变的比较复杂。

正因为如此，贝叶斯学派的学者们提出了很多形式的概率分布，称之为共轭分布。

共轭分布的作用是，让先验乘以似然之后，仍然跟先验属于同一种分布，这样就带来了计算上的方便。

但这一点也正是频率学派所一直诟病的地方，你们贝叶斯学派选择先验没有任何科学依据，只是为了方便计算啊。

3）BE的缺点更明显了，就是计算量过大，因为它要求各个估计的概率加权平均。

在机器学习领域，贝叶斯方法基本等同于“计算量超级大”。不过，有很多近似求解的方法（比如，采样），极大地减小了计算量，拓宽了贝叶斯方法的实际应用范围。

三者之间的联系：

最后，我们来回答导读中的三个问题，

1) 机器学习中的目标函数，代表的是一个信息标准（比如，似然、后验、交叉熵、经验损失等）。

使用什么样的信息标准作为优化目标，代表了我们不同的追求。

比如，我们希望得到一个光滑的模型，就会对导数加惩罚项；我们希望得到简单的模型，就会对模型复杂度加惩罚项。

2) 交叉熵函数来自于训练数据集上的极大似然估计。

3) 逻辑回归解决的是分类问题，其目标函数就是交叉熵。

以上，欢迎留言讨论交流哦。

极大似然估计、极大后验估计和贝叶斯估计