基于正则化的回归：岭回归和套索回归

2024-05-02 00:21:15

在多元线性回归中，多个变量之间可能存在多重共线性，所谓多重，就是一个变量与多个变量之间都存在线性相关。首先来看下多重共线性对回归模型的影响，假设一下回归模型

y = 2 * x1 + 3 * x2 + 4

举一个极端的例子，比如x1和x2 这两个变量完全线性相关，x2=2*x1, 此时，上述回归方程的前两项可以看做是2个x1和3个x2的组合，通过x1和x2的换算关系，这个组合其实可以包括多种情况，可以看看做是8个x1, 4个x2, 也可以看做是4个x1和2个x2的组合，当然还有更多的情况

y = 8 * x1 +4

y = 3 * x1 + 2 * x2 + 4

y = x1 + 3.5 * x2 + 4

y = 4 * x1 + 2 * x2 +4

y = 4 * x2 + 4

在x1和x2完全线性相关的情况下，以上方程都是等价的，在这里举这个完全线性相关的例子，只是为了方便理解当变量间存在线性相关时，对应的系数会相互抵消。此时，回归方程的系数难以准确估计。

在最小二乘法的求解过程涉及逆矩阵运算，一个矩阵可逆需要符合行列式不为零或者矩阵满秩，当变量存在多重共线性时，对应的矩阵不满秩，就会导致无法进行逆矩阵运算，也会对简单最小二乘法造成影响，尽管仍然可以通过伪逆矩阵运算来求解。

对于多重共线性的情况，如果执意用最小二乘法来求解，会发现，随着变量相关性的增强，回归系数的方差会变大，用一个示例的例子来验证一下，代码如下

>>> x = np.arange(0.6, 1.0, 0.05)

>>> beta1 = []

>>> for i in x:

... data = np.array([[i, 2], [2, 4], [4, 8]])

... target = np.array([1, 2, 3])

... reg = linear_model.LinearRegression().fit(data, target)

... beta1.append(reg.coef_[0])

...

>>> plt.plot(x, beta1, 'o-')

[<matplotlib.lines.Line2D object at 0x13633580>]

>>> plt.show()

输出结果如下

x轴是自变量的取值，x不断增大，上述拟合结果中的自变量之间的相关系数也不断增强，可以看到，随着相关性的增强，回归系数的变化速率越来越快。而对于两个完全独立的变量而言，而拟合结果是恒定不变的，方差为0，而多重共线性则导致拟合结果随着相关系数的变化而变化，回归系数的方差变大了。

为了解决多重共线性对拟合结果的影响，也就是平衡残差和回归系数方差两个因素，科学家考虑在损失函数中引入正则化项。所谓正则化Regularization, 指的是在损失函数后面添加一个约束项，在线性回归模型中，有两种不同的正则化项

1.所有系数绝对值之和，即L1范数，对应的回归方法叫做Lasso回归，套索回归

2.所有系数的平方和，即L2范数，对应的回归方法叫做Ridge回归，岭回归

岭回归对应的代价函数如下

套索回归回归对应的代价函数如下

从上面的公式可以看出，两种回归方法共性的第一项就是最小二乘法的损失函数，残差平方和，各自独特的第二项则就是正则化项，参数 λ 称之为学习率。

对于岭回归而言，可以直接对损失函数进行求导，在导数为0处即为最小值，直接利用矩阵运算就可以求解回归系数

对于套索回归而言，损失函数在w=0出不可导，所以没法直接求解，只能采用近似法求解。在scikit-learn中，有对应的API可以执行岭回归和套索回归

1. 岭回归

>>> data = np.array([[0, 0], [0, 0], [1, 1]])

>>> data

array([[0, 0],

       [0, 0],

       [1, 1]])

>>> target = np.array([0, 0.1, 1]).reshape(-1,1)

>>> target

array([[0. ],

       [0.1],

       [1. ]])

>>> from sklearn import linear_model

# 岭回归

>>> reg = linear_model.Ridge(alpha=.5).fit(data, target)

>>> reg

Ridge(alpha=0.5)

>>> reg.coef_

array([[0.34545455, 0.34545455]])

>>> reg.intercept_

array([0.13636364])

2. 套索回归

>>> reg = linear_model.Lasso(alpha=.5).fit(data, target)

>>> reg

Lasso(alpha=0.5)

>>> reg.coef_

array([0., 0.])

>>> reg.intercept_

array([0.36666667])

对于这两种回归而言，学习率的设置对拟合结果有较大影响，在实际分析中，需要根据模型的验证效果来选取最佳的学习率值。为了更加方便的探究最佳学习率，内置了留一法交叉验证的API, 用法如下

>>> from sklearn.datasets import make_regression

>>> X, y = make_regression(noise=4.0, random_state=0)

# 岭回归

>>> reg = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13)).fit(X, y)

>>> reg.alpha_

0.01

# 套索回归, 两种方法

# LassoCV

>>> reg = linear_model.LassoCV(cv=5).fit(X, y)

>>> reg

LassoCV(cv=5)

>>> reg.alpha_

0.3964179552011309

# LassoLarsCV

>>> reg = linear_model.LassoLarsCV(cv=5).fit(X, y)

>>> reg

LassoLarsCV(cv=5)

>>> reg.alpha_

0.048432240696248796

对于存在多重共线性的病态数据，可以使用岭回归和套索回归来限制多重共线性对拟合结果的影响。

·end·

(9条消息) Backtrader量化平台教程（四）SSA策略实际案例

AD:(本人录制的backtrader视频课程,大家多多支持哦~ https://edu.csdn.net/course/detail/9040) 无意中发现了一个巨牛的人工智能教程,忍不住分享一下给 ...
应该掌握的7种回归模型

本文转载自博客你应该掌握的7种回归模型!. 线性回归和逻辑回归通常是人们学习预测模型的第一个算法.由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了.而了解更多的学者会知道它们是所有回归 ...
Python|线代矩阵问题

问题描述 Python中含有丰富的库提供我们使用,学习数学分支线性代数时,矩阵问题是核心问题.Numpy库通常用于python中执行数值计算,并且对于矩阵操作做了特殊的优化,numpy库通过向量化避免 ...
ML之NB：利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测、评估

ML之NB:利用朴素贝叶斯NB算法(CountVectorizer+不去除停用词)对fetch_20newsgroups数据集(20类新闻文本)进行分类预测.评估输出结果设计思路核心代码 htt ...
【时间序列】时间序列回归相关知识的总结与梳理

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是一种预测性的建模技术,它研究的是因变量(Y)和自变量(X)之间的关系,例如不同的施肥量对苗木高生长的关系.中国人的消费习惯对美 ...
R语言高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据（含练习题）

原文链接:http://tecdat.cn/?p=23378 1 介绍在本文中,我们将研究以下主题证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...
ML之LiR&LassoR：利用boston房价数据集(PCA处理)采用线性回归和Lasso套索回归算法实现房价预测模型评估

ML之LiR&LassoR:利用boston房价数据集(PCA处理)采用线性回归和Lasso套索回归算法实现房价预测模型评估利用boston房价数据集(PCA处理)采用线性回归和Lasso套 ...
回归锡安之路—犹太人回归以色列的心路历程（二）

基督教反犹主义的基点是教义,而不是犹太人的种族,所以与其说是反犹主义(anti-semitism),不如说是反犹太教主义(anti-judaism). 耶稣复活升天后,圣徒保罗四次远出传教,最后一次传 ...
回归锡安之路—犹太人回归以色列的心路历程（三）

三.非我族类宗教教义的辩论对于绝大多数还是文盲的天主教信众甚为遥远,除了教会的开导外,广大信众还是认定简单的"非我族类,其心必异".作为欧洲最大的坚持独特的风俗习惯.宗教和语言的 ...
三明医改如何做到：让药品回归治病，让医生回归看病，让公立医院回归公益

被称为医改风向标的福建三明医改模式, 对深化医改有怎样的意义? 三明医改如何全面推广? 李玲教授如何评价三明医改? 詹积富现场答疑,以数据破传言. 医疗.医保.医药"三医联动":降 ...
教你怎么挽回老公的方法：男人回归家庭后的苦恼,回归家庭的男人的心理

女人总是轻信男神的誓言,不少男人在出轨以后,也是通过各种的挽留方式,又回到了自己的家庭.然而才发现婚后的生活已经面目全非.男人回归家庭后的苦恼, 也是在回归家庭以后最大的一个痛点.不少男人感觉老婆没有 ...
红米老对手正式回归！魅蓝手机即将回归：魅族再玩性价比？

如果你是铁杆煤粉,那么应该对魅蓝手机不会陌生.魅族曾经秉承双品牌策略,也是当时主流厂商比较流行的做法,比如小米和红米,华为和荣耀,还有现在的OPPO和realme,vivo和iQOO.双品牌策略的好处 ...
李安华作家演讲：未来全民觉醒，人类从兽性回归人性，从人性回归神性

首先非常感谢昕企管家的大力支持,以及各位优秀家人的到来.我们把掌声送给昕企管家平台.今天是我们举办的第四届女娲文化公益课堂,我相信能够参加今天这个活动的人都是有福报的人,因为冥冥之中,自有天意,受人类 ...
如今艾吉回归了，这些明星回归WWE还远吗？这对夫妇让不少人期待

北京时间2020年2月9日,PWInsider分析了有望在未来一两年内回归WWE的明星!众所周知,在<皇家大战2020>上,我们看到了艾吉回归WWE,更让人意外的是,艾吉如今依然很能打,状 ...

基于正则化的回归：岭回归和套索回归

相关推荐