【1133.】时间依赖ROC(timeROC)

导读

(谨以此文献给中医统计界老大哥申杰教授,感谢申哥多年来对松哥统计的关心与支持!)

一谈到ROC曲线,大家本能的就会想到诊断试验,就会想到如何去寻找诊断界值(cut off point)。

其实ROC曲线还可以用于模型效果的评价,就是常说的C-Index;同时还有一种用法,就是根据二分类结局为标准,对连续性自变量进行ROC曲线,就可以将连续性或者等级的自变量X进行二分类分组。

如上所述,松哥相信大家都没有问题,然而,当我们研究的是生存数据,研究结局不仅仅是二分类结局,还有时间数据和删失数据的时候,我们就没法轻易获得ROC曲线所要的二分类结局标准。

于是timeROC就粉墨登场了!

原文表述

ROC曲线分析是用于评估一个因素预测能力的手段,是可以用于连续型变量分组的方法。在生存分析中,疾病状态和因素取值均会随时间发生变化。而标准的ROC曲线分析将个体的疾病状态和因素取值视作固定值,未将时间因素考虑在分析之中。在这种情况下,使用时间依赖性ROC无疑是更好的选择。

时间依赖性ROC曲线有(1) cumulative/dynamic(C/D)、(2) incident/dynamic(I/D)和(3) incident/static(I/S)三种定义,其中cumulative/dynamic(C/D)是比较适合用于生存分析的定义,也是当前大多数研究使用的方法。

cumulative/dynamic(C/D)中cumulative是指Cumulative sensitivity,dynamic是指dynamic specificity。对于任意时间t,每一个个体会按照其在时间t的状态被划分到病例组或对照组。在cumulative/dynamic中,如果一个个体在时间0和时间t之间发病,那么其会被划分到病例组(图中A、B和E);如果一个个体在时间0和时间t之间没有发病,那么其会被划分到病例组(图中C、D和F)。

一般来说,因素测量时间距离时间发生时间越远,其预测能力就可能变得越弱。就比如说用一个人三年前的血压水平来预测这个人患高血压的概率肯定要比用一年前的血压水平效果要差。时间依赖性ROC曲线的优点就在于它可以利用每个个体发病时间的附加信息,可以在多个时间点构建ROC曲线,并比较因素的预测能力。这能够使我们知道在多长的时间范围内我们进行生存分析是有效的,以及在这个时间范围内如何对连续型变量进行分组是最恰当的。
###松哥整理的代码如下:###timeROCinstall.packages("survivalROC")library(survivalROC) data(mayo) head(mayo)mayocutoff <- 365Mayo4.1= survivalROC(Stime=mayo$time, status=mayo$censor, marker = mayo$mayoscore4, predict.time = cutoff, method="KM")
plot(Mayo4.1$FP, Mayo4.1$TP, type="l", xlim=c(0,1), ylim=c(0,1), xlab=paste( "FP", "\n", "AUC = ",round(Mayo4.2$AUC,3)), ylab="TP", main="Mayoscore 4, Method = KM \n Year = 1") #加上对角线 abline(0,1)
cut.op2=Mayo4.1$cut.values[which.max(Mayo4.1$TP-Mayo4.1$FP)]cut.op2
#help("survivalROC")
#5yearscutoff <- 1825Mayo4.2= survivalROC(Stime=mayo$time, status=mayo$censor, marker = mayo$mayoscore4, predict.time = cutoff, method="KM")
plot(Mayo4.2$FP, Mayo4.2$TP, type="l", xlim=c(0,1), ylim=c(0,1), xlab=paste( "FP", "\n", "AUC = ",round(Mayo4.2$AUC,3)), ylab="TP", main="Mayoscore 4, Method = KM \n Year = 1") #加上对角线 abline(0,1)
cut.op2=Mayo4.2$cut.values[which.max(Mayo4.2$TP-Mayo4.2$FP)]cut.op2

---统计思维与理论系列---

【1132.】这篇文章寻找交互的方式很独特,建议参考

【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1130.】回归建模先单后多法,到底该不该保留无意义变量,理不辨不明

【1128.】logistic与Cox回归的三次样条回归实现

【1127.】一张无法解释的ROC曲线,咋回事

【1126.】R语言实现基于多重插补的广义模型

【1125.】终结了,干预前后数值变量,到底该如何分析与制表

【1124.】那些委托第三方进行论文代写代发,要耗子尾汁了哦!

【1123.】卡方检验思想【白话科普】

【1122.】现代流行学圣经,一本英文原版著作

【1121.】假设检验的思想【白话科普】

【1120.】这种错误非常隐蔽,看《中国妇幼保健》上这篇文章就错了,而且还。。。

【1119.】医学科研设计,这张图基本说清楚了

【1118.】统计三维空间,换种角度理解常用统计

【1117.】临床科研课题统计学审核要点

【1116.】CNKI撤稿和撤回,都有抹不掉的痕迹!

【1115.】PCA、PLS-DA、OPLS-DA到底啥关系?

【1114.】先单后多风险因素发现模型构建论文错误解析

【1113.】医学论文中常用回归分析方法的审核要点[松哥荐读]及对策

【1112.】病例对照研究中的COR和AOR

【1111.】这个北大核心太好发呀!

【1110.】松哥,重测后t检验是咋回事?

【1109.】两独立t如何获取差值的可信区间?

【1108.】SCI论文,有时也错的离谱

【1107.】Y是连续,X是分类,怎么分析?

【1106.】统计问诊:这样的回归,松哥也很少见到

【1105.】统计问诊:松哥为什么我回归模型无法计算可信区间

【1104.】质性研究编码及nvivo操作

[1103.]CNKI升级了,即使撤稿也还能下载,如此留下痕迹,侥幸者要注意啦!

【1102.】[精品资源]回归建模策略(第二版)

【1101.】单组前后测量设计,你得小心了?

【1094.】横断面研究思路与统计分析方法

【1093.】临床设计与统计设计:相爱相杀

【1092.】为什么一篇文章要建立5个模型

【1091】混杂因素与交互作用杂谈!

【1090.】中英文期刊分类(SCI分区和中文核心),一文秒懂!

【1089.】看懂此图,统计开悟!松哥荐读

【1088.】模型发现有交互作用怎么办?怎么解释呢!

【1087.】LASSO:变量选择利器!

【1086.】为啥20分以上SCI论文如此钟情P-interaction!

【1085.】正态性不符合怎么办?其实没啥大事!

【1084.】哎呦妈呀!几何均数还有标准差呀?书中从来没说过呀!

【1083.】交叉验证是啥个意思,是换妻游戏吗?

【1082.】不懂统计思维的统计是没有灵魂的!

【1081.】造假大识别,这种假都敢造!

【1080.】辨析丨啥?统计上还有q值,和P值啥关系?

【1079.】这种造假方式,您能识别吗?

【1078.】SCI相关分析比中文正规的3点理由

【1077.】临床科研设计与数据分析9大易忽视错误(推荐)

【1076.】这种套路可以学,怎么化无意义为有意义!

【1075.】很有意思的一个统计问题,并发症到底该如何分析?

【1074.】一文了解主流统计软件

【1073.】WHAT!计算机随机序列竟然是伪随机

【1072.】单因素Logistic回归变量筛选,你还在用表表达,看看人家如何可视化的,审稿人看了能不开心吗?

【1071.】SCI论文中回归模型样本量确定标准,建议阅读

【1070.】性别和吸烟是专业公认的危险因素,为啥多因素分析性别没意义了?

【1069.】数值变量应该以何种形式进入模型

【1068.】多项分类变量进入模型的正确姿势

【1067.】这种随意拆分的错误不能犯

【1066.】SCI统计方法写作秘籍

【1065.】这篇SCI论文10个统计问题辨析

【1064.】以前认为概念无所谓,其实松哥错了

【1063.】松哥,我发现一处SCI统计错误,非常荒谬!

【1062.】分类变量哑变量设置后,参照到底如何选择?

【1061.】这篇SCI的诊断试验结果看不懂,他到底是咋比的

【1060.】如何向统计老师咨询统计问题的正确姿势

【1059.】生存分析单因素筛选的困惑

【1058.】4种最常用的统计设计解读

【1057.】SPSS统计软件学习终身不忘之必杀技

【1056.】回归家族的书剑恩仇录,高手进阶必经之路

【1055.】单因素是危险因素,多因素却保护因素了,想逆天吗?

【1054.】这种文章统计套路您一定要学,不管你什么专业通杀

【1053.】这个空白对照到底要不要加?

【1052.】同一肝癌患者,同时接受CT、超声和磁共振,如何分析?

【1051.】来自临床真实问题,有点意思,松哥荐读!

【1050.】知道两组数据的样本量均数标准差,怎么算合并统计量呢?

【1049.】meta分析软件Revman5.3卡死解决方案

【1048.】P>0.05,本身就是没意义还是样本量不够?

【1047.】两因素方差分析,如何判断哪个因素对结果影响较大?

【1046.】带基线数据数值变量如何进行统计分析辨析

【1045.】统计学习之最大困惑!!

【1044.】松哥为啥我318样本量统计分析出来确实400样本量?

【1043.】这两个是啥图?区别和联系

【1042.】变量之间到底是单项转化还是双向转化

【1041.】统计水平自我评估表

【1040.】基线分析的3个终极目的

【1039.】统计小白的学习路径

【1038.】SCI论文中Logistic回归模型“门当户对”原则,松哥心得推荐给您

【1037.】被我们忽视的生存分析区间删失数据

【1036.】Logistic回归文章的SCI审稿人意见解读

【1035.】统计学上的2K效应,你发现了没?

【1034.】正态分布的3个基因密码,聆听大自然心跳的代码!

【1033.】生存分析K-M法与COX回归结论不一致怎么办?

【1032.】异常值的处理只有删除?

【1031.】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1030.】SCI审稿人让我控制2个单因素无意义的变量?

【1029.】量表评价是信度重要还是效度重要?

【1028.】Meta分析要解决的首要任务

【1027.】文章材料与方法中统计方法如何描述

【1026.】这个到底是啥统计设计?一起来看看!

1025.聚类分析稳定性判别的经验总结

【1024.】“参数检验与非参数检验”哪个更好?

【1023.】干预前后数据统计分析方法

【1022.】听完四个小故事,你就明白主成分分析是啥意思了!

【1021.】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1020.】等级与等比,可得分清楚!

【1019.】频率与概率,如胶又似漆!

【1018.】终于发现不用学习,顿悟统计的方法

【1017.】倾向性评分后数据,应该采用配对设计还是成组设计?

【1016.】统计必学的4个核心思想

【1015.】加权最小二乘回归是什么鬼?

【1014.】平行性检验到底应该啥时候做?

【1013】统计的4维空间(一维一层天)

【1012】到底做相关?还是方差分析呢?

【1011】这篇文章凭啥这样分组呢?

【1010】常用统计分析方法选择图解

【1009】P<0.05也别理直气壮,统计也会犯错,还分犯I类和II类错误?

【1008】文章鉴析:这篇文章或许有10处不适!

【1007】R×C卡方的Fisher确切概率法为什么会有卡方值

【1006】大小优指标如何同时制作ROC曲线[经验技巧]

【1005】统计方法与统计思想谁重要?

【1004】别说相关太简单,且听松哥说相关

【1003】正态分布10种鉴别方法汇总【荐藏】

【1002】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

------------------------------

(0)

相关推荐

  • 002011 ROC买股

    ROC:100*(CLOSE-REF(CLOSE,75))/REF(CLOSE,75),COLORGREEN,LINETHICK2; MAROC:MA(ROC,38),COLORMAGENTA,LIN ...

  • 你真的了解模型评估与选择嘛

    前面几讲我们基于数据分析师需要掌握的基本技能,从SQL出发,学习了统计学的基本知识,在系统层面基本讲完了数据分析师需要具备的能力.下面几讲,我们会围绕数据挖掘工程师需具备的知识体系展开,今天会着重介绍 ...

  • 搞懂机器学习的常用评价指标!

    每日干货 & 每月组队学习,不错过  Datawhale干货  作者:陈安东,湖南大学,Datawhale成员 我与评价指标的首次交锋是第一次实习面试时,面试官开头就问分类任务的评价指标.我当 ...

  • 人工智能基础课堂纪要6

    2.6 api介绍[**] 1.梯度下降法 sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept ...

  • R语言中生存分析模型的时间依赖性ROC曲线可视化

    原文链接:http://tecdat.cn/?p=20650 人们通常使用接收者操作特征曲线(ROC)进行二元结果逻辑回归.但是,流行病学研究中感兴趣的结果通常是事件发生时间.使用随时间变化的时间相关 ...

  • 机器学习:模型评价指标总结

    子曰:"温故而知新,可以为师矣. 混淆矩阵 混淆矩阵是一种特定的矩阵用来呈现算法性能的可视化效果,通常用于二分类模型.其每一列代表预测值,每一行代表的是实际的类别. 其实就是把所有类别的预测 ...

  • TCGA数据差异分析后生存分析(批量单因素cox回归/Lasso筛选,多因素cox建模,时间依赖ROC曲线及KM plot可视化)

    测序上游分析系列: mRNA-seq转录组二代测序从raw reads到表达矩阵:上中游分析pipeline miRNA-seq小RNA高通量测序pipeline:从raw reads,鉴定已知miR ...

  • SurvivalROC包绘制时间依赖的ROC曲线

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. SurvivalROC包绘制时间依赖的ROC曲线 含有删失数据的生存数据, ...

  • 抗生素应用:分清时间依赖还是浓度依赖

    来源 // 丁香园 抗菌药物的时间.浓度依赖性及抗菌药物的后效应在近年来抗菌药物治疗过程中越来越受到重视,也使临床合理选择抗菌药有了更加充分的理论依据. 一. 抗菌药物的药效学.药动学参数 当前,用于 ...

  • 从前我依赖别人,如今我相信时间和自己

    我小时候特别爱哭鼻子,摔倒了要哭.玩具被抢了也要哭. 清晰记得哭得最任性最霸道的是,不知怎么的在商店里看中了一条裙子,老妈觉得价格贵太浪费了不愿意给我买,要把我哄回家,而我当时不知哪里来的倔强,怎么哄 ...

  • 零碎时间可利用,但不能依赖:碎片化学习如何提高效率

    现在竞争压力大,为了让自己更有竞争力,很多人在工作之余还要不停地学习,比如考个证书之类的.但每天的工作已经够忙了,根本抽不出专门的时间来学习,于是很多人开始利用零碎时间进行学习. 像在上下班路上,排队 ...

  • 早餐店做什么最赚钱利润高时间短

    俗话说得好:"求人不如求己"开启你的智慧大门,动起你的灵巧双手,让我们努力去创造成功,改变命运吧!随着国家地摊经济的开放,摆摊群众也是越来越多.大家别小看这些摆摊的,他们赚取的利润 ...

  • 羊角蜜的种植时间与方法

    羊角密是甜瓜中的一个新品种,近年才开始出现在市场上,一上市就获得了人们的喜爱,价格也涨了不少,由于是早熟品种,上市比甜瓜早所以效益更好,至于为什么叫羊角蜜是因为果实细长形似羊角.今天主要介绍羊角蜜具体 ...

  • 花费一周时间,终于把国内10大顶级游资操...

    炒股最开心的莫过于,自己所持有的股票,有顶级的游资也看上了.当他们入场的时候,那就是这个股票成为黑马或者是妖股起涨的开始.这个时候就不是考虑这个股票涨不涨的问题,而是涨到你害怕,跌到你怀疑自己的人生. ...