【统计学小知识】ROC曲线,那些必须要知道的事

想要了解ROC曲线吗?不急,先来看看下面的小情景。
【情景设置】
牛逼的我:师傅,您能对我上点心吗?!文章还没发,明年快毕业了啊。。。
豆逼导师:小牛啊,我是挺中意你的。。
牛逼的我:师傅,你想多了。我是指对我的【论文】上点心。。。
豆逼导师:(故作正经)昨天你师兄的实验结束了。咱们这里有2组人群。一组是病人,一组是健康人。我们检测了他们血清中X指标。你看看,怎么才能根据X的数值,来判断一个人是病人还是健康人?判断的效果好不好。我先走了。。。明天到我办公室来汇报。。。
牛逼的我:哦。。。。
【统计方法】
来听听统计学砖家和叫兽是怎么考虑“豆逼导师”给小牛的问题的。
这是一个典型的诊断试验数据分析。每个人的血清X指标都不太一样,有大有小。一般是病人高,健康人低。实际上,小牛需要找到一个X指标的阈值。如果X指标超过阈值,则判断某一对象为病例;低于阈值,则判断某一对象为健康人。
显然,这么判断,肯定会出现错判的情况。也就是常说的假阳性和假阴性。如图1所示:

假阳性就是误诊,假阴性就是漏诊。按照“豆逼导师”的要求,咱们应该找到一个比较好的阈值,尽可能使得误诊和漏诊的比例尽可能低。
现在假设我们选定了一个阈值,并且将判断的结果整理成图2所示:

金标准,就是一个人真实的情况,是患者还是非患者。
诊断试验的结果,就是根据你的阈值,判断某一对象是患者还是非患者。
据此,我们可以计算以下几个常见的统计学指标,来评价判断的效果好还是不好。见下图3、图4。


实际上,判断效果好,就是要求灵敏度和特异度要高。如下图5,所示。

那么问题来了:如何确定一个最佳的阈值,使得灵敏度和特异度相对达到最大?
我们可以这么做。尝试设置不同的阈值。不同的阈值,判断结果不同,灵敏度和特异度不同。可以绘制以下一张图形。
横轴是不同的阈值。考虑的简单一点,咱们这里假设X的范围是0 ~ 1。蓝色的线代表的不同阈值下,灵敏度的变化。红色的线,代表的特异度的变化。两条线相交的地方,对应的那个阈值就是最佳阈值。图中,最佳阈值就是0.48。

那如果我们选择0.48做为标准来判断的话,对应的灵敏度和特异度到底是多少呢?如图所示,50个病人中,47个判断正确,灵敏度达到94%,127健康人中,119个判断正确,特异度达到93.7%。所有177个人当中,47+119个人判断正确了,正确率达到93.79%。
那大家会觉得奇怪了。这和ROC曲线有半毛钱关系啊?
别急,别急。。。
如果大家明白了小编说的这些内容。就不难理解ROC曲线了。
ROC曲线,全称是receiver operating characteristic curve,简称ROC曲线。中文翻译是受试者工作特征曲线。如下图所示。

如果横轴是1-特异度,纵轴是灵敏度。那么就会形成1个弯曲的曲线。这个曲线和45度的直线会形成一个曲线下面积(area under ROC),简称AUC。AUC越大,说明判断的效果越好。
如图所示,AUC为0.9758,说明判断效果优秀了!
但是,实际工作中,一般AUC在0.7-0.9范围内的比较常见。超过0.9的属于凤毛麟角了。当然,如果你对自己的分析结果不满意的话,可以求助专业的统计师哦。他们有能力、有策略,做得比你更好。
【知识总结】
(1)ROC曲线其实是诊断试验中用于展示某个判断原则效果好差的一种图形,可以通过AUC来衡量大小。
(2)给定最佳阈值后,可以通过灵敏度、特异度、正确率来评价判断的具体效果。
(3)当然,实际应用过程中还有其他方法、其他可以计算的统计指标。
(0)

相关推荐

  • R语言中生存分析模型的时间依赖性ROC曲线可视化

    原文链接:http://tecdat.cn/?p=20650 人们通常使用接收者操作特征曲线(ROC)进行二元结果逻辑回归.但是,流行病学研究中感兴趣的结果通常是事件发生时间.使用随时间变化的时间相关 ...

  • 【AI初识境】深度学习模型评估,从图像分类到生成模型

    这是<AI初识境>第10篇,这次我们说说深度学习模型常用的评价指标.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 凡事用数据说话,一个深度学习模型在各类任务中的表现都需要定量 ...

  • 你真的了解模型评估与选择嘛

    前面几讲我们基于数据分析师需要掌握的基本技能,从SQL出发,学习了统计学的基本知识,在系统层面基本讲完了数据分析师需要具备的能力.下面几讲,我们会围绕数据挖掘工程师需具备的知识体系展开,今天会着重介绍 ...

  • 分类模型评估指标

    对于构建好的机器学习模型,需要对模型的效果进行评估,对于机器学习中的3大类问题,分类,回归,聚类而言,各自有不同的评估指标,本文主要介绍分类模型常用的评估指标. 以二分类问题为例,考虑真实分类和模型预 ...

  • R语言ROC曲线评价分类器的好坏

    原文链接:http://tecdat.cn/?p=18944 本文将使用一个小数据说明ROC曲线,其中n = 10个观测值,两个连续变量x_1和x_2,以及二元变量y∈{0,1}. 我们可以表示平面( ...

  • ★★★乐理小知识:学钢琴的都知道的17个小知识!

    ★★★乐理小知识:学钢琴的都知道的17个小知识!

  • 有趣的统计学小知识——误差

    视听率调查在我国已有二十余年发展历史,借助于统计学的创立和日臻成熟,视听率调查得以借助较少的样本对一个城市.省乃至全国的受众的视听行为进行推断.可以说,在视听率调查的整个流程中,统计学的理论和方法贯穿 ...

  • 养殖小知识|关于“霉菌”与“霉菌毒素”,你应该知道的事!

    我们经常说:"霉菌毒素是养殖场疾病的万恶之源".可以想象得到,现在的养殖场为何病症多.难治疗.效益差,有时候更是防不胜防,这其中的很大一部分原因就是因为"霉菌毒素&quo ...

  • 触摸一体机的使用知识与应用,都应该知道的!

    一.来自(搜狐号)提供的使用常识 液晶触摸一体机触摸屏液晶触控屏又称为触控面板,是个可接收触头等输入讯号的感应式液晶显示装置,当接触了屏幕上的图形按钮时,屏幕上的触觉反馈系统可根据预先编程的程式驱动各 ...

  • 肥胖有害,低体重危害也不小 —— 这 4 件你必须知道的事!

    2020 年 11 月艺人王俊凯的减重事件引发了网友们的热议.为了拍摄新电影,身高约 1.8 米的王俊凯将体重从 60 kg 减至 48.2 kg.实际上,不仅是明星,普罗大众也常常为了追求魔鬼身材而 ...

  • 【小芝士】关于装备,你需要知道的事

    关于装备,你需要知道的事 大家好!我是战姬. 当一个英雄想要发挥其最大威力时,除了饰品.宝石.天赋以及阵容搭配之外,装备也起到了不容忽视的加成作用. 今天,我们就来聊聊装备那些事儿. 装备的体系分为传 ...

  • 帕金森健康小知识

    对于帕金森患者来说,能够找到一家正规的治疗帕金森这种疾病的医院对自身的病情起到非常好的帮助作用,所以,帕金森患者需要擦亮眼睛去选择治疗帕金森的医院,但是在选择医院之前,患者应该对自己的病情有一定的了解 ...

  • 中医小知识:认识十四经络

    中医之声 医学资讯 公众号 十四经络由十二经络和任脉.督脉构成,在内部隶属于脏腑,在外部分布于四肢.头面.躯干,分为手足.阴阳.脏腑三部分. 具有的疏通作用如下: 1.遍布内外,网络全身. 2.相互联 ...

  • 【养宠小知识】银渐层的眼角黑黑的咋治好

    银渐层的眼角黑黑的,就说明可能是出现了泪痕的现象,宠物主人不要掉以轻心,虽然出现泪痕对猫咪的身体健康来说,并没有什么影响,但是对于它的颜值来说,影响是非常严重的,宠物主人可以参考以下几点措施,帮助猫咪 ...