R语言解决Lasso问题

2024-07-29 04:29:12

Lasso回归复杂度调整的程度由参数lambda来控制，lambda越大模型复杂度的惩罚力度越大，从而获得一个较少变量的模型。Lasso回归和bridge回归都是Elastic Net广义线性模型的特例。除了参数lambda，还有参数alpha，控制对高相关性数据时建模的形状。Lasso回归，alpha=1(R语言glmnet的默认值),brigde回归，alpha=0，一般的elastic net 0<alpha<1.

根据Hastie(斯坦福统计学家)， Tibshirani和Wainwright的Statistical Learning with Sparsity（The Lasso and Generalizations），如下五类模型的变量选择可采用R语言的glmnet包来解决。这五类模型分别是：

1. 二分类logistic回归模型

2. 多分类logistic回归模型

3.Possion模型

4.Cox比例风险模型

5.SVM

下面介绍如何使用glmnet包来实现，以二元logistic回归模型为例：

>library("glmnet") #加载该软件包

>cv.fit<-cv.glmnet(x,y,family="binomial") #x为输入特征，x应该是矩阵格式的，若非矩阵格式，采用as.matrix()转换成矩阵格式，否则，会报如下错误：Error in lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs, :
(串列)对象不能强制改变成'double'种类。其他模型familiy值不一样，如cox风险比例模型是cox，possion是possion，多分类logistic是multinomial，广义线性模型guassian，family还有一种选择是mgaussian，不知是否是svm模型？

正确答案是：参数family规定了回归模型的类型:

----family="gaussian"适用于一维连续因变量

----family=mgaussian"适用于多维连续因变量

----family="poisson"适用于非负次数因变量(count)

----family="binomial"适用于二元离散因变量(binary)

----family="multinomial"适用于多元离散因变量(category)

>plot(cv.fit)

cv.fit=cv.glmnet(x,y,family='binomial',type.measure="deviance")

这里的type.measure是用来指定交叉验证选取模型时希望最小化的目标参量，对与logistic回归有以下几种选择:

--------type.measure=deviance使用deviance，即-2log-likelihood（默认）

--------type.measure=mse使用拟合因变量与实际因变量的mean squred error

--------type.measure=mae使用mean absolute error

--------type.measure=class使用模型分类的错误率

--------type.measure=auc使用area under the ROC curve,是现在最流行的综合考量模型性能的一种参数

>cv.fit$lambda.min #最佳lambda值

>cv.fit$lambda.1se#指在lambda.min一个标准差范围内得到的最简单模型的那一个lambda值。因为lambda值达到一定大小之后，继续增加模型自变量个数及缩小lambda值，并不能显著提高模型性能，lambda.lse给出的就是一个具备优良性能但是自变量个数最少的模型。

>fit<-glmnet(x0,y0,family="binomial")

>plot(fit)

>coefficients<-coef(fit,s=cv.fit$lambda.min)
>Active.Index<-which(coefficients!=0) #系数不为0的特征索引
>Active.coefficients<-coefficients[Active.Index] #系数不为0的特征系数值

参考文献：热门数据挖掘模型应用入门（一）: LASSO回归

statistical learning with sparsity

GWAS宝刀未老

今年(2020)2月,解放军总医院放射治疗科的研究团队,在国际期刊<Journal of Cancer> 上发表了题为"Precise prediction of the rad ...
数据挖掘：基于R语言的实战 | 第6章：线性模型与广义线性模型

第6章给大家介绍实际场景中最常用的两种统计模型,线性模型和广义线性模型.本章首先在6.1节中介绍线性模型,然后在6.2节中介绍广义线性模型,在6.3节再介绍线性模型和广义线性模型中的变量选择.本章最后 ...
r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现

原文链接:http://tecdat.cn/?p=3795 Glmnet是一个通过惩罚最大似然关系拟合广义线性模型的软件包.正则化路径是针对正则化参数λ的值网格处的lasso或Elastic Net( ...
数据分析：基于glmnet的Cox

glmnet提供了LASSO或ridge regression的Cox-PH分析模式,用于研究预测变量与生存时间的关系. 加载数据 library(glmnet)library(survival)da ...
【影像组学预测模型-Radiomics】实操教学

影像组学(Radiomics)是一个新兴的概念,2012 年由荷兰学者 Philippe Lambin 首次提出,其定义是借助计算机软件,从医学影像图像中挖掘海量的定量影像特征,使用统计学和/或机器学 ...
R语言Lasso回归模型变量选择和糖尿病发展预测模型

原文链接:http://tecdat.cn/?p=22721 Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量 ...
R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例

原文链接:http://tecdat.cn/?p=21444 逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选.概率预测.分类等,例如医学研究中高通里测序技术得到的数据给高维变量选择问 ...
高分生信SCI套路攻略！精选我最喜欢的3大套路！谁用谁高分！（附代码）

基于线性模型的特征筛选方法大家好,我是风风.单细胞系列的推文告一段路,我们把基本分析和常见的高级分析基本都走了一遍,剩下的就是实操进行排列组合了.今天我们来聊点新的内容--基于线性模型的特征筛选方法 ...
ML之PLiR之Glmnet：利用Glmnet算法求解ElasticNet回归类型问题(实数值评分预测)

ML之PLiR之Glmnet算法:利用Glmnet算法求解ElasticNet回归类型问题(实数值评分预测) 输出结果 0 2 1 2 2 2 3 3 4 3 5 3 6 3 7 3 8 3 9 2 ...
R语言Bootstrap的岭回归和自适应LASSO回归可视化

原文链接:http://tecdat.cn/?p=22921 拟合岭回归和LASSO回归,解释系数,并对其在λ范围内的变化做一个直观的可视化. # 加载CBI数据 # 子集所需的变量(又称,列) CB ...
线性回归中的L1与L2正则化

在这篇文章中,我将介绍一个与回归相关的常见技术面试问题,我自己也经常会提到这个问题: 描述回归建模中的L1和L2正则化方法. 在处理复杂数据时,我们往往会创建复杂的模型.太复杂并不总是好的.过于复杂的 ...
基于正则化的回归：岭回归和套索回归

在多元线性回归中,多个变量之间可能存在多重共线性,所谓多重,就是一个变量与多个变量之间都存在线性相关.首先来看下多重共线性对回归模型的影响,假设一下回归模型 y = 2 * x1 + 3 * x2 + ...
R语言实现偏最小二乘回归法 partial least squares (PLS)回归

原文链接:http://tecdat.cn/?p=8652 偏最小二乘回归是一种回归形式 . 当使用pls时,新的线性组合有助于解释模型中的自变量和因变量. 在本文中,我们将使用pls在" ...
R语言高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据（含练习题）

原文链接:http://tecdat.cn/?p=23378 1 介绍在本文中,我们将研究以下主题证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...
R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

原文链接:http://tecdat.cn/?p=21602 正则化(regularization) 正则化路径是在正则化参数lambda的值网格上计算套索LASSO或弹性网路惩罚的正则化路径.该算法 ...

R语言解决Lasso问题

相关推荐