统计方法三要素:模型+策略+算法

参考:

一、模型

条件概率分布或决策函数,在监督学习中指的是所有可能的目标分布或函数的假设空间。

二、策略

按照什么样的准则学习,从而得到最优的模型,比如损失函数、风险函数、正则化、经验风险、结构风险等等。

2.1、损失函数与风险函数

损失函数 度量 模型一次预测的好坏。
风险函数 度量 平均意义模型预测的好坏。

   损失函数值越小,模型越好。由于模型的输入、输出是随机变量,遵循联合概率分布P(X, Y),所以损失函数的期望:

这是理论下模型f(X)关于联合概率分布P(X, Y)平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。

学习的目标就是选择期望风险最小的模型。

给定一个训练数据集 T = {(x1, y1), (x2, y2), (x3, y3)… (xN, yN)}。
模型关于训练数据集平均损失称为经验风险(empirical risk) 或经验损失(expirical loss),记作Remp(f):

根据大数定理,当样本容量N趋于无穷时,经验风险Remp(f) 趋于 期望风险Rexp(f)。所以一个自然的想法就是使用经验风险估计期望风险
但是,由于训练样本小,所以使用经验风险估计期望风险并不理想。要对经验风险进行矫正,这就需要监督学习的两大策略:

2.2、经验风险最小化与结构风险最小化

三、算法

学习模型的具体计算方法,比如梯度下降、随机梯度下降等。

(0)

相关推荐