深入理解线性回归算法（二）：正则项的详细分析

2024-05-16 10:21:49

前言

当模型的复杂度达到一定程度时，则模型处于过拟合状态，类似这种意思相信大家看到个很多次了，本文首先讨论了怎么去理解复杂度这一概念，然后回顾贝叶斯思想（原谅我有点啰嗦），并从贝叶斯的角度去理解正则项的含义以及正则项降低模型复杂度的方法，最后总结全文。

目录

1、怎么去理解复杂度

2、回顾贝叶斯思想

3、贝叶斯角度下的正则项

4、正则项降低模型复杂度的方法

5、总结

1、怎么去理解复杂度

怎么去理解复杂度，可能有人认为模型的参数越多，模型越复杂。笔者认为最好是通过结果去理解复杂度，比如当模型训练误差很小且测试误差很大时，则模型的复杂度较高，降低复杂度的方法包括减少模型参数的个数和降低模型参数值的大小等。笔者引用《Pattern Recognition and Machine Learning》的相关内容去阐述复杂度，希望能够加深大家对复杂度的理解。

1、方差理解复杂度

当模型的复杂度较高时，模型对训练数据集非常敏感，符合同一分布的不同训练数据集构建的模型相差很大，即方差越高，模型的复杂度越大。

方差定义：

其中，x表示抽样的测试数据，D为抽样的训练数据集，y(x;D)表示输入变量x在特定训练数据集D构建的模型的输出，不同的训练数据集D有不同的输出变量。

用样本的统计量来表示方差，如下图：

其中：

上式含义：N个测试样本在L个模型的输出方差（请参考方差公式）。

下面三张图表示了复杂度与方差之间的关系：

（1）（2）

（3）

由上面三张图可知，第三张图的振动最剧烈，即方差最大，根据方差定义来理解复杂度，那么相应的复杂度也越高。

2、数据集分布理解复杂度

若模型越复杂，那么从该模型抽样的数据集变化越大，数据集覆盖的范围也越广。

如下图数据集D在模型M1，模型M2和模型M3的分布情况：

由于数据集D在模型M3分布的范围最广，则模型M3的复杂度越高，M2次之，M1最低。

2、回顾贝叶斯思想

贝叶斯思想是根据当前的观测数据再加上自己的先验知识主观判断事件发生的概率。因此随着观测数据的增加，事件发生的概率会相应的发生改变，同时先验知识是影响主观判断事件发生概率的另一个重要因素。

贝叶斯评估模型参数w分布的公式：

3、贝叶斯角度下的正则项

若模型的复杂度较高，那么通过在损失函数项增加正则项的方式来降低模型的复杂度。

如下图：

（1）若q=1时，则正则化项为L1范数，构建的线性回归称LASSO回归。

（2）若q=2时，则正则化项为L2范数，构建的线性回归称Ridge回归。

最小化损失函数

得到的参数w即是模型的最优解。

贝叶斯角度分析损失函数

1、先验分布是高斯分布

由上节可知，贝叶斯估计模型参数w的分布需要知道参数的先验分布和数据集的似然函数，若数据集D已知，参数w的先验分布是均值为0精度为α的高斯分布。

则参数w的后验分布的推导过程如下：

由3.2可知，后验概率最大化等于包含L2正则化项损失函数的最小化。

式（3.1）第一项表示损失函数，第二项表示惩罚函数。

式（3.2）第一项表示数据D的似然函数，第二项表示参数的先验分布。

比较两式可知，参数的先验分布对应于正则化项。当参数的先验分布为高斯分布时，则正则化项为L2范数，构建的回归模型称为Ridge回归。

2、先验分布是拉普拉斯分布

推导过程类似，这里只给出结论部分。

当参数的先验分布为拉普拉斯分布，则正则化项为L1范数，构建的回归模型称为LASSO回归。

小结：贝叶斯定理的后验分布与似然函数和先验分布相关，不考虑先验分布时，则损失函数不包含正则化；考虑先验分布时，则损失函数包含正则化；最大化后验分布等同于最小化正则化的损失函数。

正则项降低模型复杂度的方法

降低模型复杂度的方法主要包括减少模型参数的个数和降低模型参数的值。本节介绍正则项降低模型复杂度的方法。

最小化

等价于:

即在式（2）的条件下，求（1）的最小值，L1和L2正则项都是利用这种思想来求最优参数。

1、正则项是L1范数

如上图含L1正则项的损失函数，蓝色线为损失函数，红色线为L1正则项包含的区域。当处于交点

时，含正则项的损失函数最小。由图可知该交点的w2为0，则模型参数个数较少了，相应的模型复杂度降低了。

2、正则项是L2范数

分析方法与L1类似，该交点所处的坐标为w1较小，即改变了模型参数值的大小，复杂度也相应的降低。

5、总结

本文首先介绍怎么去理解复杂度的概念，然后从贝叶斯角度去分析正则项的含义，即正则项等同于贝叶斯分析的先验分布，最后介绍了正则项降低模型复杂度的两种方法。

参考：

Christopher M.Bishop <<Pattern Reconition and Machine Learning>>

赞 (0)

极大似然估计、极大后验估计和贝叶斯估计

作者 :stephenDC 本文题目中的三个概念,都属于概率统计领域,但机器学习相关的工作者们,也应该很好地理解并掌握. 有些同学也许会反问,我不了解,也没用过这些东西,工作也做的很好啊? 那好,再来 ...
【机器学习基础】深入浅出经典贝叶斯统计

贝叶斯统计概率的类型假设为数据对象的值 , 的相关频率为 ,其中N表示总的出现次数(). 一个事件的概率为 ,代表事件发生的可能性有多大. 我们通过在范围内为某个空间中的结果( ...
ML之LiR：机器学习经典算法之线性回归算法LiR的简介、使用方法、经典案例之详细攻略

ML之MLiR:利用多元线性回归法,从大量数据(csv文件)中提取五个因变量(输入运输任务总里程数.运输次数.三种不同的车型,预测需要花费的小时数)来预测一个自变量输出结果代码设计 from nu ...
如何通俗理解线性回归？ | 30天学会医学统计与SPSS公益课(Day16)

30天打卡学习医学统计与SPSS本课程是高校医学统计学教授的公益.免费公开课!如假包换!我将每天推送视频和文字教程,讲授基于医学数据的各种统计分析策略.如果你能跟得上节奏,我相信在一个月后,您将会掌握 ...
深入理解 CAS 算法原理

深入理解 CAS 算法原理
详解线性回归算法的纯Python实现

黄佳简说Python 1周前来源|天池大数据科研平台作者|黄佳零基础学机器学习--一文详解线性回归算法的纯Python实现 ❝ 本文作者:黄佳,新加坡埃森哲公司高级顾问,人工智能专家,机器学习 ...
'大而无外，小而无内“该怎么理解？用二十四个字把“道”讲清楚

'大而无外，小而无内“该怎么理解？用二十四个字把“道”讲清楚
全球二发，详细图解联想LenovoEMC PX4

手上有几台几乎全新的px4-300d.px6-300d,D525主板,2G三代内存,4/6盘位,具体参数可百度. 官方最新系统4.1.310.34505 - Release Date 02/28/20 ...
科目二上坡起步详细操作技巧！

科目二上坡起步详细操作技巧！
应该怎样理解“一赚二平七亏”这句话？

"一赚二平七亏",如果此谚语为真,应该如何理解这句话? 配资头条认为可以这样理解:如果要成为这个市场的胜利者,你要成为前面的10%之中的人,当然这其实是建立在你的交易策略是短期的, ...
十二卷授粉详细教程

一个月前,从它们抽花剑开始,我就等啊等啊,第一颗大卫针管开花了,盼啊盼啊,今天终于迎来了第二颗开花的冰砂糖,而此时大卫针管的花都谢了两朵了,有点遗憾,毕竟我好喜欢它,它杂交的孩子应该是很棒的,但是不管 ...