数据挖掘:基于R语言的实战 | 第6章:线性模型与广义线性模型

第6章给大家介绍实际场景中最常用的两种统计模型,线性模型和广义线性模型。本章首先在6.1节中介绍线性模型,然后在6.2节中介绍广义线性模型,在6.3节再介绍线性模型和广义线性模型中的变量选择。本章最后的6.4节提供了3个使用R语言建立线性模型与广义线性模型的案例,在线性模型部分使用了房屋价格数据,在广义线性模型部分使用了印第安女性糖尿病数据和移动运营商数据。

6.1节介绍了线性模型的基本假设并给出了参数的估计方法和估计结果,接着讨论了线性模型结果的解释,即某自变量的系数可以解释为:该自变量的值增加一个单位而其他自变量的值不变时,因变量的均值变化的估计值为该系数值大小。这一节还给出了一些线性模型的理论结果,如系数估计值的向量表示、“帽子”矩阵、方差的无偏估计以及标准化残差等。最后介绍模型的诊断方法,利用标准化残差图检验随机扰动项是否满足线性、独立、同方差和正态的假定,使用Cook距离甄别异常点,使用DW统计量检验自相关性以及利用方差膨胀因子检测多重共线性。

由于因变量从连续变量变成了其他形式,在广义线性模型中需要加一连接函数将随机成分(因变量的分布)与系统成分(自变量的线性组合)连接起来,这样得到的估计结果才能解释为取因变量中某一值的概率。6.2节根据因变量的不同情形介绍广义线性模型。首先,当因变量为二值变量或比例时,介绍了两种常用的连接函数Logit函数和Probit函数,分别对应Logistic回归和Probit回归。当因变量有多种取值时,对应多项逻辑回归。当因变量为定序变量时,对应序次逻辑回归。小节的最后还介绍了因变量为计数变量、非负连续变量等情形。

6.3节介绍线性模型和广义线性模型中两种常用的变量选择方法,逐步回归和Lasso。逐步回归是逐步建立一系列线性模型或广义线性模型的变量选择方法,包含向前法、向后法和向前向后法。根据AIC或BIC值考虑模型的对训练集的拟合程度和其复杂度,选择相应模型。LASSO方法是在系数的估计过程中对其施加约束,对模型复杂度进行惩罚。它的特点是给定任何一个调节参数值,只有某些斜率系数的估计值不为0。这就实现了变量的选择。

6.4节给出了一个线性模型示例、一个逻辑回归及Lasso示例,然后将逻辑回归和Lasso应用于移动运营商数据。几个案例均给出了R语言实现的代码及详细注释,方便同学们动手实践。大家快跟着学起来吧!

(0)

相关推荐

  • Lasso算法理论介绍

    先看一波过拟合: 图中,红色的线存在明显的过拟合,绿色的线才是合理的拟合曲线,为了避免过拟合,我们可以引入正则化. 下面可以利用正则化来解决曲线拟合过程中的过拟合发生,存在均方根误差也叫标准误差,即为 ...

  • 预测模型第8期 | 连续变量该如何进入模型?

    连续变量纳入模型 如果变量和结果之间的关系是线性的,则可以在回归方程中包含连续变量. 如果没有,可以将其转换为二分变量或有序分类变量,然后将它们放入回归方程中.回归模型中包含连续变量时,应尽可能将原始 ...

  • 数据挖掘:基于R语言的实战 | 第5章:聚类分析

    第5章我们继续来学习一种无监督的数据挖掘方法--聚类分析.通过聚类分析我们可以观察到数据是怎么聚集在一起的,还可以用来描述数据的分布情况.聚类分析的应用十分广泛,例如通过对客户聚类来对其进行细分以便为 ...

  • 数据挖掘:基于R语言的实战 | 第7章:神经网络的基本方法

    上一章我们简单介绍了有监督学习方法中最常用的线性模型和广义线性模型,第7章我们来认识一下神经网络的基本方法.本章先介绍了单个神经元和神经网络,然后介绍神经网络的训练方法,接着介绍提升模型泛化能力的一些 ...

  • 数据挖掘:基于R语言的实战 | 第9章:基于决策树的模型组合

      上一章我们学习了决策树模型,这一章我们继续学习几种基于决策树的模型组合,包括袋装决策树.梯度提升决策树.随机森林和贝叶斯可加回归树.本章的最后提供了在R语言中建立以上几种模型的案例.   9.1节 ...

  • 基于R语言实现LASSO回归分析

    原文链接:http://tecdat.cn/?p=10997 模拟假数据集  set.seed(0820) n         <- 50  p         <- 25  beta   ...

  • 每周一本书 |《R语言预测实战》:预测很有趣,算法却未必枯燥

    <数据猿导读> 预测是数据挖掘的主要作用之一,也是大数据时代的核心价值所在.本周给大家分享的书是<R语言预测实战>,基于R语言来做预测,兼具效率和价值的双重属性,R语言具有上手 ...

  • 一文掌握SVM用法(基于R语言)

    这是生信技能树 一文 系列推文,前面的目录: 一文学会WGCNA分析 一文看懂主成分分析 SVM 背景知识 支持向量机,因其英文名为support vector machine,故一般简称SVM,就是 ...

  • 芯片的探针ID找到基因名-基于R语言-一文就够

    使用bioconductor注释包 如果该芯片平台有对应的bioconductor注释包,只有约90个常用的芯片有! 比如: library(hgu133a.db) ids=toTable(hgu13 ...

  • 基于R语言的shiny网页工具开发基础系列-07

    任何使用R的人都可运行你的shiny app,他们需要你的app.R的一个副本,还有其他支持材料(比如www文件夹或者帮助脚本) 发送你的文件到另一个用户,email或者github等 用户将你的文件 ...

  • 基于R语言的shiny网页工具开发基础系列-06

    L6-反应表达式 用反应表达式,快速构建,模块化app ⚠️此篇的线上数据可能有时无法顺利抓取,要多试几次 使用反应表达式 用户会赞叹快速的app,但是你的app有大量运算影响速度了该怎么办呢? 此篇 ...