数据挖掘:基于R语言的实战 | 第6章:线性模型与广义线性模型
第6章给大家介绍实际场景中最常用的两种统计模型,线性模型和广义线性模型。本章首先在6.1节中介绍线性模型,然后在6.2节中介绍广义线性模型,在6.3节再介绍线性模型和广义线性模型中的变量选择。本章最后的6.4节提供了3个使用R语言建立线性模型与广义线性模型的案例,在线性模型部分使用了房屋价格数据,在广义线性模型部分使用了印第安女性糖尿病数据和移动运营商数据。

6.1节介绍了线性模型的基本假设并给出了参数的估计方法和估计结果,接着讨论了线性模型结果的解释,即某自变量的系数可以解释为:该自变量的值增加一个单位而其他自变量的值不变时,因变量的均值变化的估计值为该系数值大小。这一节还给出了一些线性模型的理论结果,如系数估计值的向量表示、“帽子”矩阵、方差的无偏估计以及标准化残差等。最后介绍模型的诊断方法,利用标准化残差图检验随机扰动项是否满足线性、独立、同方差和正态的假定,使用Cook距离甄别异常点,使用DW统计量检验自相关性以及利用方差膨胀因子检测多重共线性。
由于因变量从连续变量变成了其他形式,在广义线性模型中需要加一连接函数将随机成分(因变量的分布)与系统成分(自变量的线性组合)连接起来,这样得到的估计结果才能解释为取因变量中某一值的概率。6.2节根据因变量的不同情形介绍广义线性模型。首先,当因变量为二值变量或比例时,介绍了两种常用的连接函数Logit函数和Probit函数,分别对应Logistic回归和Probit回归。当因变量有多种取值时,对应多项逻辑回归。当因变量为定序变量时,对应序次逻辑回归。小节的最后还介绍了因变量为计数变量、非负连续变量等情形。
6.3节介绍线性模型和广义线性模型中两种常用的变量选择方法,逐步回归和Lasso。逐步回归是逐步建立一系列线性模型或广义线性模型的变量选择方法,包含向前法、向后法和向前向后法。根据AIC或BIC值考虑模型的对训练集的拟合程度和其复杂度,选择相应模型。LASSO方法是在系数的估计过程中对其施加约束,对模型复杂度进行惩罚。它的特点是给定任何一个调节参数值,只有某些斜率系数的估计值不为0。这就实现了变量的选择。
6.4节给出了一个线性模型示例、一个逻辑回归及Lasso示例,然后将逻辑回归和Lasso应用于移动运营商数据。几个案例均给出了R语言实现的代码及详细注释,方便同学们动手实践。大家快跟着学起来吧!

