如何用线性回归模型做数据分析?

一、什么是线性回归

线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系。对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。

线性回归应用于数据分析的场景主要有两种:

  • 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);
  • 预测:自变量与因变量呈线性关系的预测;
    模型数学形式:=0+11+22+⋯+

例如要衡量不同的用户特征对满意分数的影响程度,转换成线性模型的结果可能就是:分数=-2.1+0.56*年龄

线性回归模型分为一元线性回归与多元线性回归:区别在于自变量的个数

二、线性系数的计算-最小二乘法
我们知道了模型的公式,那么模型的系数是如何得来呢?我们用最小二乘法来确定模型的系数。最小二乘法,它通过最小化误差的平方和寻找数据的最佳函数匹配,利用最小二乘法可以求得一条直线,并且使得拟合数据与实际数据之间误差的平方和为最小

将上述模型公式简化成一个四个点的线性回归模型来具体看:分数=-2.1+0.56*年龄

最小二乘法选取能使模型 误差平方和= 1+ 2+ 3+ 4最小化的直线,生成直线后即可得出模型自变量的系数和截距。

三、决定系数R方(R-squared)与调整R方
R方(适用一元线性回归)

R方也叫决定系数,它的主要作用是衡量数据中的因变量有多准确可以被某一模型所计算解释。公式:

离差平方和:代表因变量的波动,即因变量实际值与其平均值之间的差值平方和

误差平方和:代表因变量实际值与模型拟合值之间的误差大小

故R方可以解释因变量波动中,被模型拟合的百分比,即R方可以衡量模型拟合数据的好坏程度;R方的取值范围<=1,R方越大,模型对数据的拟合程度越好;

使用不同模型拟合自变量与因变量之间关系的R方举例,

R方=1 模型完美的拟合数据(100%)

R方=0.91 模型在一定程度较好的拟合数据(91%)

R方<0 拟合直线的趋势与真实因变量相反

调整R方(适用多元线性回归)

一般的R方会存在一些问题,即把任意新的自变量加入到线性模型中,都可能会提升R方的值,模型会因加入无价值的变量导致R方提升,对最终结果产生误导。

故在建立多元线性回归模型时,我们把R方稍稍做一些调整,引进数据量、自变量个数这两个条件,辅助调整R方的取值,我们把它叫调整R方,调整R方值会因为自变量个数的增加而降低(惩罚),会因为新自变量带来的有价值信息而增加(奖励);可以帮助我们筛选出更多有价值的新自变量。

n:数据量大小(行数)->数据量越大,新自变量加入所影响越小;

p:自变量个数->自变量个数增加,调整R方变小,对这个量进行惩罚;

一句话,调整R方不会因为模型新增无价值变量而提升,而R方会因为模型新增无价值变量而提升!通过观测调整R方可以在后续建模中去重多重共线性的干扰,帮助我们选择最优自变量组合。

R方/调整R方值区间经验判断

  • <0.3->非常弱的模型拟合
  • 0.3-0.5->弱的模型拟合
  • 0.5-0.7->适度的模型拟合
  • >0.7->较好的模型拟合

四、线性回归在数据分析中的实战流程

我们以共享单车服务满意分数据为案例进行模型实战,想要去分析不同的特征对满意分的影响程度,模型过程如下:

1、读取数据

2、切分因变量和自变量、分类变量转换变量

3、使用VIF去除多重共线性

多重共线性:就是在线性回归模型中,存在一对以上强相关变量,多重共线性的存在,会误导强相关变量的系数值。
强相关变量:如果两个变量互为强相关变量,当一个变量变化时,与之相应的另一个变量增大/减少的可能性非常大。

当我们加入一个年龄强相关的自变量车龄时,通过最小二乘法所计算得到的各变量系数如下,多重共线性影响了自变量车龄、年龄的线性系数

这时候,可以使用VIF消除多重共线性:VIF=1/(1-R方),R方是拿其他自变量去线性拟合此数值变量y得到的线性回归模型的决定系数。某个自变量造成强多重共线性判断标准通常是:VIF>10

我们发现,年龄的VIF远大于10,故去除年龄这一变量,去除后重新计算剩余变量VIF发现所有均<10,即可继续。

4、计算调整R方

5、数据标准化

我们希望不同自变量的线性系数,相互之间有可比性,不受它们取值范围影响

6、拟合模型,计算回归系数

共享单车分数案例,因变量是分数,自变量是年龄、组别、城区,线性回归的结果为:分数 = 5.5 + 2.7 * 年龄 +0.48 * 对照组 + 0.04 * 朝阳区 + 0.64 * 海淀区 + 0.19 * 西城区


7、生成分析洞见-驱动力因素

最终产出不同用户特征对用户调研分数的驱动性排名。驱动力分数反应各个变量代表因素,对目标变量分数的驱动力强弱,驱动力分数绝对值越大,目标变量对因素的影响力越大,反之越小,驱动力分数为负时,表明此因素对目标变量的影响为负向。

8、根据回归模型进行预测

至此,回归模型已经建好,预测就不写了,把要预测的数据x自变量导入模型即可预测y。

(0)

相关推荐

  • SPSS案例实践笔记:多重线性回归分析|数据小兵博客

    当只考察一个自变量对因变量的影响时,我们称之为简单一元线性回归,如果要多考察一些自变量,此时许多人习惯性将之称为多元线性回归,统计学上建议称之为多重线性回归,避免和多元统计方法冲突. 案例背景介绍 这 ...

  • 【时间序列】时间序列回归相关知识的总结与梳理

    回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是一种预测性的建模技术,它研究的是因变量(Y)和自变量(X)之间的关系,例如不同的施肥量对苗木高生长的关系.中国人的消费习惯对美 ...

  • 如何用决策树模型做数据分析?

    一 什么是决策树? 决策树模型本质是一颗由多个判断节点组成的树.在树的每个节点做参数判断,进而在树的最末枝(叶结点)能够对所关心变量的取值作出最佳判断.通常,一棵决策树包含一个根结点,若干内部节点和若 ...

  • R数据分析:如何用lavaan包做结构方程模型,实例解析

    今天给大家写一个非常经典的结构方程模型的例子,这个例子是用来研究精神错乱的,模型总共有3个因子,一个社会经济地位SES,另外两个分别是1967年和1971年的精神错乱alien.每个因子两个测量指标, ...

  • R数据分析:一般线性回归的做法和解释

    发现大家做分析做的最多的还是线性回归,很多人咨询的都是线性回归的问题,今天专门出一个线性回归的文章. 在R语言中我们可以非常方便地用基础包中的lm方法做出线性回归.参数的书写也和数学方程一样一样的Y~ ...

  • 如何用表格做数据分析?用这些方法整理,清晰又直观!

    日常工作学习,少不了接触表格文档.它的作用,除了将数据记录为电子文档.方便传阅外,还能用于数据分析得出结论. 那么如何利用表格进行数据分析呢?今天 WPS君就来通过一个例子教教大家. 01 找到数据源 ...

  • R数据分析:如何用层次聚类分析做“症状群”,实例操练

    好多同学硕士论文开题咨询我想做症状群,有用因子分析的,也有用潜类别分析的,这些方法之前都给大家写过,今天再给大家写一个用无监督的机器学习方法-------层次聚类做症状群的方法.同学们如果对这个方法有 ...

  • 如何通过RFM模型做用户分层,进行精细化运营?

    诸葛君说:说到用户运营,大家或许会说用户画像,用户分层,社群运营,粉丝运营等一系列的名词,在日常工作中你可能也做过用户分层方面的实践,比如运营社群,当用户量只有几百的时候,我建几个群,每天发发消息,做 ...

  • 实操干货 | 如何用企业微信做私域,助力业绩翻倍?

    五谷磨房是一家专注于做天然谷物营养食品的品牌,目前已入驻了全国300多个城市,有3000家以上的直营专柜.但受疫情影响,五谷磨房也面临着客户流失.服务内容分散.线上触达用户低的困境. 为了应对这些难题 ...

  • Python做数据分析有哪些优势?Python基础!

    众所周知,可以用作数据分析的语言有很多,包含Python.R语言等,而且Python被誉为数据分析的一大利器,更是该领域的首选语言,那么用Python做数据分析有哪些优势呢?跟着小编往下看. 第一.P ...

  • 如何在表格做数据分析?这个例子教你轻松入门

    日常工作学习,少不了接触表格文档.它的作用,除了将数据记录为电子文档.方便传阅外,还能用于数据分析得出结论. 那么如何利用表格进行数据分析呢?今天 WPS君就来通过一个例子教教大家. 01 找到数据源 ...