机器学习:模型评价指标总结

  • 子曰:“温故而知新,可以为师矣。

混淆矩阵

混淆矩阵是一种特定的矩阵用来呈现算法性能的可视化效果,通常用于二分类模型。其每一列代表预测值,每一行代表的是实际的类别。

其实就是把所有类别的预测结果与真实结果按类别放置到了同一个表里,在这个表格中我们可以清楚看到每个类别正确识别的数量和错误识别的数量。

    Name     预测值   真实值
    TP          Y      Y
    TN          N      N
    FP          Y      N
    FN          N      Y

TP :预测为正样本,实际也是正样本。

FP :预测为正样本,实际是负样本。

FN :预测为负样本,实际是正样本。

TN :预测为负样本,实际也是负样本。

准确率

准确率是指我们的模型预测正确的结果所占的比例。

精确率

所有预测为正样本的集合中预测正确的比例,精确度告诉我们,实际上有多少正确预测的案例是肯定的。

召回率

召回率告诉我们可以使用模型正确预测多少实际阳性病例。

F1 值

实际上,当我们尝试提高模型的精度时,召回率会下降,反之亦然。F1分数以单个值捕获了两种趋势。F1得分是Precision和Recall的谐波平均值,因此它给出了关于这两个指标的组合思想。当Precision等于Recall时,最大值。

ROC & AUC

ROC曲线,它的横纵坐标分别是

对于预测出的概率值和它们的真实label,当取不同阈值时,会得到很多的坐标 (x,y),把这些点都连接起来就是ROC曲线。

auc值是roc曲线下的面积,从定义就能看出,对于同一个 x,我们希望 y 越大越好,也就是说,在 FP 固定的时候,模型中 TP 越高 AUC 值就越高,所以 AUC 值很在乎正样本的准确率,当数据比例不平衡时,我们的模型很可能偏向预测样本数更多的负样本,虽然这时准确率和 log损失 看着都不错,可是 AUC 值却不理想。

log损失

log损失反映了样本的平均偏差,经常作为模型的损失函数来做优化,可是,当训练数据正负样本不平衡时,比如我们经常会遇到正样本很少,负样本很多的情况,我们更希望在控制 FP 的情况下检出更多的正样本,若不做任何处理,则降低LogLoss会倾向于偏向负样本一方,此时LogLoss很低,可正样本的检出效果却并不理想。

MAE

平均绝对误差(Mean Absolute Error),观测值与真实值的误差绝对值的平均值。

MSE

均方误差(MSE)是最常用的回归损失函数,计算方法是求预测值与真实值之间距离的平方和。

MAE对于异常值比MSE更稳定,相对于使用MAE计算损失,使用MSE的模型会赋予异常点更大的权重。如果异常点代表在商业中很重要的异常情况,并且需要被检测出来,则应选用MSE损失函数。相反,如果只把异常值当作受损数据,则应选用MAE损失函数。

R方

RMSE和MAE有局限性:同一个算法模型,解决不同的问题,不能体现此模型针对不同问题所表现的优劣。因为不同实际应用中,数据的量纲不同,无法直接比较预测值,因此无法判断模型更适合预测哪个问题。方案:将预测结果转换为准确度,结果都在[0, 1]之间,针对不同问题的预测准确度,可以比较并来判断此模型更适合预测哪个问题;

也可以加一下老胡的微信
围观朋友圈~~~

推荐阅读

(点击标题可跳转阅读)

我爱线代,线代使我快乐

麻省理工学院计算机课程【中文版】

【清华大学王东老师】现代机器学习技术导论.pdf

机器学习中令你事半功倍的pipeline处理机制

机器学习避坑指南:训练集/测试集分布一致性检查

机器学习深度研究:特征选择中几个重要的统计学概念

老铁,三连支持一下,好吗?↓↓↓

(0)

相关推荐

  • 【机器学习】异常检测算法速览(Python代码)

    正文共: 8636字 8图 预计阅读时间: 22分钟 一.异常检测简介 异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点.异常值检测等等. 1.1 异常检测适用的场景 异常检 ...

  • ROC分析

    转自个人微信公众号[Memo_Cleon]的统计学习笔记:ROC分析. 本次笔记涉及单变量和多变量的ROC和PR曲线的绘制,AUC.最佳界值的确定以及两条ROC曲线间的比较,采用软件SPSS26. 受 ...

  • 你真的了解模型评估与选择嘛

    前面几讲我们基于数据分析师需要掌握的基本技能,从SQL出发,学习了统计学的基本知识,在系统层面基本讲完了数据分析师需要具备的能力.下面几讲,我们会围绕数据挖掘工程师需具备的知识体系展开,今天会着重介绍 ...

  • 机器学习模型评估教程!

    文章译者:追风者 内容来源:Datawhale 如何在投入生产前评估机器学习模型性能? 想象一下,你训练了一个机器学习模型.也许,可以从中选几个候选方案. 你在测试集上运行它,得到了一些质量评估.模型 ...

  • 为什么大型机器学习模型必须缩小 ?

    更大的规模不一定更适合机器学习.但是,随着研究人员相互竞争追求最先进的基准,深度学习模型和训练它们的数据集不断扩展.不管它们如何突破,更大的模型都会对预算和环境产生严重的影响.比如 GPT-3,一个在 ...

  • 难以捉摸?机器学习模型的可解释性初探

    引子:在机器学习中,可解释性的概念既重要又难以捉摸.我们能相信模型吗?它在部署过程中会起作用吗?关于这个世界,模型还能告诉我们什么?模型不仅应该是好的,而且应该是可以解释的,然而,可解释性似乎没有具体 ...

  • 训练机器学习模型时应避免的 6 个错误

    对人工智能模型进行训练的同时,还需要进行多阶段任务,以充分利用训练数据,获得满意的结果.为了保证人工智能模型的性能,本文列出了六个需要避免的常见错误. 创建人工智能或机器学习模型并非一项简单的任务.为 ...

  • 训练机器学习模型时比较常见的错误有哪些?开课吧广场

    创建人工智能或机器学习模型并非一项简单的任务.为了让模型能在不同环境下正常使用,除了要有大量的知识.技能和丰富的经验,你还要有高质量的计算机视觉训练数据,特别是基于视觉感知的人工智能模型. 训练机器学 ...

  • 手把手教你用Python构建logit、负二项回归、决策树与随机森林机器学习模型

    本次更新的主要内容为利用Python中的statsmodels库构建logit与负二项回归模型,以及利用sklearn库构建决策树以及随机森林模型.内容源自同济大学研究生课程<高级数理统计> ...

  • MLOps 正在改变机器学习模型的开发方式

    提供机器学习解决方案远不止仅提供模型那么简单.机器学习运维 (MLOps) 的基础理论可以帮助数据科学团队更快.更有信心地交付模型,其涉及版本控制.测试和流水线这三个关键概念. MLOps(https ...

  • 比较三种机器学习模型(随机森林,支持向量机,逻辑回归)的分类效果

    原文题目:The Pan-Cancer analysis of pseudogene expression reveals biologically and clinically relevant t ...

  • 全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!

    邮箱:econometrics666@126.com 所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问. 背景知识:1.机器学习之KNN分类算法 ...