科研绘图:如何用GraphPad Prism绘制ROC曲线
1什么是ROC曲线
①基本概念
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具(飞机、船舰),也就是信号检测理论,后面广泛应用于医学、无线电、生物学、犯罪心理学领域中,而且最近在机器学习(machine learning)和数据挖掘(data mining)领域也得到了很好的发展。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线,反映了敏感性与特异性之间关系。
②理解ROC曲线
针对一个二分类问题,我们将实例分成正类/阳性(positive)和负类/阴性(negative)两种。在实际分类中,会出现四种情况。如果一个实例是阳性并且也被预测为阳性,即为真阳性(true positive,TP),如果实例为阴性被预测为阳性,称之为假阴性(false negative,FN);相应的,如果实例是阴性被预测为阴性,称之为真阴性(true negative,TN),如果实例为阴性被预测为阳性,称之为假阳性(false positive,FP)。
ROC曲线以假阳性率(False positive rate,FPR)即 “1-特异度(1-Specificity)”为横坐标,真阳性率(True positive rate,TPR)即“灵敏度(Sensitivity)”为纵坐标,其中:
在ROC曲线中,FPR越大,预测阳性中实际阴性越多,TPR越大,预测阳性类别中实际阳性越多。理想状态下,TPR应该接近1,FPR应该接近0,因此ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,特异度、灵敏度越大效果越好。
③ROC曲线的主要作用
在实际应用中,ROC曲线主要有以下三种作用:
a. 判别一个分类其在某个阈值时对样本的识别能力,在实验中即可用于评估试验的诊断价值。这里需要引出一个概念,ROC曲线下面积(Area Under Curve,AUC),AUC作为数值可以直观地评价分类器的好坏,值越大越好。一般认为,AUC≈1.0为最理想的检查指标;AUC在0.7-0.9之间表示分类器准确性高;AUC=0.5表示分类器无分类价值。
b. 选择出某一诊断方法最佳的诊断界限值。在ROC曲线中,最靠近左上角的那一点为最佳临界点,点上的值即为最佳临界值,因为此点上敏感度与特异度都较高,假阳性与假阴性也最少。
c. 比较两种或两种以上不同诊断方法对疾病的识别能力大小。把各试验的ROC曲线绘制在同一坐标中,可以直观地比较哪种诊断更有价值, 越是靠近左上角的ROC曲线所代表的诊断方法性能越好。
2GraphPad Prism绘制ROC曲线
打开GraphPad Prism软件,选择柱状图(Column),点击“Creat”创建数据。
导入数据,可从Excel中导入,也可直接复制数据在列表中,本文中以软件内置的实例数据为例进行操作。
数据分为两列,一列为“Controls”组为用于对照的诊断试验结果,一列为“Patients”组为患者。
在软件界面上方工具栏点击“Analyze”按钮对数据进行分析。
在弹出的窗口左侧展开Column analysis列表,选择ROC Curve选项,在右侧窗口确认勾选了“Controls”组和“Patients”组,点击“OK”按钮。
在弹出的Parameters:ROC Curve窗口中指定哪些列具有对照结果和患者结果,并选择查看以分数或百分比表示的结果(灵敏度和1-特异性),该设置可在Results参数选项中选择勾选“Fraction”或“Precentage”进行更改,其它参数一般无需更改,点击“OK”来生成ROC曲线。
在Results处可查看统计结果,其中Area即AUC,为曲线下面积,本例中为0.9467。此外,Prism还报告了ROC曲线下面积的标准误差(Std. Error)、95%置信区间(95% confidence interval)以及P值(P value)。
切换至Sensitivity & Specificity选项卡可以看到计算获得的Sensitivity及Specificity等数据。
在Graphs处可查看绘制的ROC曲线。
默认获得的ROC曲线并不美观,下面进行一些美化。
鼠标双击坐标轴,选择Frame and Origin项目卡,修改Frame style改为'Plain Frame',点击“OK”应用设置。
切换至X axis选项卡,对横坐标样式进行修改,取消勾选“Automatically determine the range and interval”选项,在Range选项中设置Maximum为“1”;
在All ticks选项中,设置Ticks length为“Short”;
在Regularly spaced ticks选项中设置Major ticks为“0.2”;
切换至Left Y axis选项卡,对纵坐标样式做同样的修改。
切换至Titles & Fonts选项卡,取消勾选“Show Graph Title”选项,不显示图表标题,点击“OK”应用以上设置。
鼠标双击绘图区域,取消“Show symbols(显示数据点)”的勾选,在Show connecting line/curve选项中更改曲线的颜色、粗细、样式等;
在Additional options选项中勾选“Show legend”来显示图例,点击“OK”应用设置。
点击图例可修改图例的名称,同样的也可对整个图表的字体类型和大小进行修改,整个图表的调整过程大家可根据期刊要求进行调整,本例中获得的最终ROC曲线如下图。
3绘制多组ROC曲线
我们在前文中关于ROC曲线的主要作用中提到:ROC曲线可以比较两种或两种以上不同诊断方法对疾病的识别能力大小。实现该功能的主要方法便是绘制多组ROC曲线。
在Graphpad Prism中,首先将多组数据制备成多个单组ROC,即重复步骤2。
绘制多个单组ROC曲线后,双击ROC1的作图区域,在打开的Format Graph窗口中,切换至Date Sets on Graph选项卡,点击“Add”将其余的单组ROC曲线添加至ROC1曲线中即可。
可以对曲线样式进行调整,最后得到如下图的结果。
以上就是本期利刃君为大家分享的使用GraphPad Prism绘制单组及多组ROC曲线的全部内容啦,在之后的推文中我们会为大家分享更多用GraphPad Prism进行科研绘图的教程,敬请期待~