R数据分析:生存分析的做法与解释续

今天更新续文,上篇文章写了生存曲线的画法,但是留了一个问题没有解决,就是Kaplan-Meier生存曲线实际上仅仅把病人分为两组做了生存率随时间的比较,但是它并没有考虑协变量。R数据分析:生存分析的做法和结果解释

那么,我们做研究的时候,你发现了两个组的生存情况不一样,是不是下一步你就要想看看到底是那些因素影响了我们的生存情况。今天的文章就尝试着解决这么样问题。

问题描述

我们今天要关注的问题变了,我们会想要探讨很多因素造成的病人生存情况的差异:

比如,我们今天想来探究一下究竟是哪些因素会影响结肠癌患者的生存情况,我们的备选因素有3个,分别是性别sex,治疗方法rx和癌肿附着情况adhere(是否附着到其他器官,2分类变量)。

那么数据集依然是survival包自带的colon数据集。

对于我们的研究问题,我可以很自然地想要做亚组分析,穷尽所有亚组来看差异,首先我们依然用Kaplan-Meier方法拟合生存曲线:

require("survival")
fit2 <- survfit( Surv(time, status) ~ sex + rx + adhere,
data = colon )

输出其实挺混乱的,我们依然可视化看看:

ggsurv <- ggsurvplot(fit2, fun = "event", conf.int = TRUE,
ggtheme = theme_bw())

ggsurv$plot +theme_bw() +
theme (legend.position = "right")+
facet_grid(rx ~ adhere)

通过亚组分析的结果我们可以知道男女的生存情况在所有情况下都有差异,但是局限性在于我们还是不能知道不同的治疗方法或者癌肿附着是不是会影响病人的生存,因为我们的图都是在分组展示不同性别的差异。

当然了,你可以改公式自己再跑跑看,但这不是我们理想的方法。

风险比例模型

The Cox proportional-hazards model (Cox, 1972) is essentially a regression model commonly used statistical in medical research for investigating the association between the survival time of patients and one or more predictor variables.

Cox回归又称为比例风险模型,Cox回归比寿命表法和Kaplan-Meier法的应用范围更广,它能够同时考虑多个自变量对生存时间分布的影响。这个就是它最重要的优点。

想理解这个模型,必须要理解风险函数(上篇文章有提)Cox风险比例模型的基本形式如下:

上面的式子,一句话就是:t时间的风险等于基线风险乘以所有预测变量造成的风险的指数幂。上面式子做一个简单的数学变换就可以得到以lnHR为因变量,自变量为研究变量的线性组合的形式:

那么,写到这儿,大家肯定就知道了风险比例模型中自变量系数的解释,就是自变量每改变一个单位,风险比的自然对数的改变量。

那么具体到我们的例子,我们可以做一个风险比例模型瞅瞅:

fit.coxph <- coxph(Surv(time, status) ~ sex + rx + adhere,
data = colon)
summary(fit.coxph)

从输出结果看性别对死亡风险没有显著影响,图中的两种治疗方案相对于参照组都可以降低死亡风险,癌肿附着会增加死亡风险。

具体解释为:相对于观察组,施加rxlev治疗和relev+5FU治疗的病人发生结局(死亡)的风险会分别是基线风险的0.97和0.64,有癌肿附着的病人发生结局(死亡)的风险会是基线的1.34倍。

我们还可以画出变量对死亡风险影响的森林图:

ggforest(fit.coxph, data = colon)

当然了这个森林图对我们这个例子并没有啥用哈,仅供看官一乐。

小结

(0)

相关推荐

  • 互助问答第528期:关于中介变量的问题

    关于中介变量的问题 老师好,请问在做中介的时候需不需要在报告基准模型中加入中介变量.比如有3个中介分开来做为啥会出现两个部分中介和一个完全中介的情况?但是如果我把三个中介变量一起放到基准模型中,自变量 ...

  • 重复测量数据分析系列_广义估计方程(stata)

    示例 某溶栓药物治疗20名急性脑梗死患者的疗效,采用随机.双盲.安慰剂平行对照设计,每组各10例,分别于治疗前及治疗后8周每周进行随访观测,观测指标为神经系统体征评分(MDNS). 示例来源:杨珉.李 ...

  • 「数据分析」十六种常用的数据分析方法分享

    「数据分析」十六种常用的数据分析方法分享,经常有朋友问朋友们,资料分析常用的分析方法有哪些,我要学习什么,今天的资料分析整理了16种常用的资料分析方法,供大家参考. 1.说明统计.描述统计是指运用表与 ...

  • 如何用统计学将数据装扮成一篇JAMA子刊文章?且看我国顶尖统计学家的杰作

    现在是大数据时代,数据大且多不得了.但数据大,反而不好分析了.特别是大型前瞻性的队列研究. 如果给你一个公开数据库,你有本事将数据分析结果发表在JAMA子刊吗? 近日我们发现,医学统计学界著名的学者, ...

  • R数据分析:列线图的做法及解释

    我们经常做的研究就是建立预测模型,我常常问自己,建的模型有啥实际应用价值? 直到我了解到列线图这个东西,才知道模型可以通过列线图转化为实际的应用工具. 列线图也叫Nomogram,中文常称为诺莫图: ...

  • R语言生存分析: 时变竞争风险模型分析淋巴瘤患者

    原文链接:http://tecdat.cn/?p=22422 在本文中,我们描述了灵活的竞争风险回归模型.回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率.该模型包含Fine和Gray(1 ...

  • R语言生存分析可视化分析

    完整原文链接:http://tecdat.cn/?p=5438 生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法. 生存分析被用于各种领域,例如: 癌症研究为患者生存时间分析, &qu ...

  • R数据分析:交叉滞后模型非专业解释

    今天继续写交叉滞后模型,本文大部分内容参考自文献:Kearney, Michael. (2017). Cross-Lagged Panel Analysis. 所以不论自己写的怎么样都建议大家去瞅瞅原 ...

  • R语言生存分析

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. R语言生存分析  生存分析是医学数据挖掘中的重要内容 R语言中用于生存分析 ...

  • R语言生存分析-Cox比例风险模型诊断

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘.    Cox比例风险模型诊断   Cox比例风险模型的建立是基于几个假设之 ...

  • R数据分析:再写潜在类别分析LCA的做法与解释

    应粉丝要求,再给大家写一期潜在类别分析的教程,尽量写的详细一点. 首先,问题导入,啥是潜在类别分析? Latent Class Analysis (LCA) is a statistical mode ...

  • R数据分析:潜在剖面分析LPA的做法与解释

    Latent Profile Analysis (LPA) tries to identify clusters of individuals (i.e., latent profiles) base ...

  • R数据分析:生存分析的做法和结果解释

    今天给大家写写生存分析: Survival analysis corresponds to a set of statistical approaches used to investigate th ...