用新统计软件JASP尝试做logistic回归
收集到某公司各个商户id,以及他们的注册时长、营业收入、成本数据,以及合作续约的情况,现在我们想尝试基于这样的数据创建商户续约预测模型。
简要分析一下,因变量是是否续约(0或1),可能的因素包括注册时长、营业收入、成本数据。
01
JASP分析过程
数据读取到JASP,打开菜单【regression】→【logistic regression】。
因变量与自变量设置如上图所示。
在【statistics】栏目中务必勾选输出【odds radios】,即计算OR值。其他参数暂时不用管它。跳过。
02
结果解读
JASP做logistic回归输出的结果,总体来说不如SPSS简要有序。
首先模型显著性检验,上表提供的指标蛮多,不过大家能普遍接受和熟知的也就是卡方检验。模型有统计学意义,至少有一个引入的因素变量有效果(χ²=336.172,P<0.001)。
模型有效了,那么这个模型长什么样子呢?
上表即模型参数估计及检验表格。estimate列为各回归系数,据此写出模型表达式如下:
logit(P)=-2.287+0.099*注册时长+0.014*营业收入-0.187*成本
这个表达式中的各系数都有显著性吗?看wald检验p值,那我们发现三个因素对是否续约的影响有统计学意义(P<0.001)。
这种显著影响,如何解读?举个例子,营业收入每增加一个单位,则商户继续续约的可能性增加1.4%,注册时长和营业收入均是继续续约的利好因子。相反地,我们发现成本是影响是否继续续约的不利因素。(基于OR值数据结果)。
从目的来讲,我们是希望做一个续约预测模型。现在这个模型有了,其预测能力如何呢?
在【statistics】栏目中勾选【confusion matrix】,我们看看分类预测的准确度如何。
JASP这个表格结果做得真不好,没有直接帮大家计算出预测准确度,我们用户还需要自己动手计算一下,麻烦。
预测不续约的准确率为54.7%
预测继续续约的准确率为83.7%
总体预测准确率73.1%
作为公司运营人员来说,我更看重的是预测预测不续约的准确率,因为我会提前跑去找商户沟通,想尽办法让商户继续合作。现在模型预测该方面的准确率是54.7%,说实话偏低啊,50%多一点的把握,和我扔硬币的概率差不多。
该模型可能导致我失去提前判断不续约商户并做出沟通的权益。所以模型的预测能力是有待继续提高的。
案例来源:
狄松等著《谁说菜鸟不会数据分析SPSS篇》
本文完
文/图=数据小兵
更多JASP统计文章
JASP计算cohen's d效应量指标
JASP可视化建模:简单一元线性回归
logistic回归分析多重共线性检验
惊艳!JASP相关系数矩阵及热力图
用散点图判断变量间线性关系
JASP统计Durbin-Watson检验的显著性P值
JASP简单一元线性回归案例实践
JASP数据分析:计算新变量
数据小兵坚持写博客已经12年
坚持写微信公号文章6年
坚持更新统计分析视频课程2年
坚持一对一答疑讨论2年
绝对超值:一对一答疑
欢迎加入SPSS、JASP视频课程
竭诚服务