KM生存曲线经logRNA检验后也可以计算HR值

号外:中秋节广州3天入门课程报名马上截止:(中秋节一起来学习!)全国巡讲第16站-广州(生信入门课加量不加价)

最近根据基因表达量对病人进行分组后,使用KM生存分析的logRNAK法来检查两个组的病人的生存差异,得到了如下的图:

可以很明显看到,根据基因表达量把病人分成高表达组合低表达组,经过log rank 检验,可以看到两组病人的生存是有统计学显著差异的,而且我们可以看到,基因表达量越高,病人死亡风险越高,所以我们可以把这个基因在表达水平上看做是风险因子,而我们通常判断风险因子或者保护因子是根据hazard ratio来的,可以看官方教材:https://www.sciencedirect.com/topics/medicine-and-dentistry/hazard-ratio

As for the other measures of association, a hazard ratio of 1 means lack of association, a hazard ratio greater than 1 suggests an increased risk, and a hazard ratio below 1 suggests a smaller risk.

所以我就突发奇想,是不是log rank 检验后也可以返回hazard ratio呢?

下面是KM生存分析和log rank检验的具体定义:

KM法即乘积极限法(product-limit method),是现在生存分析最常用的方法,是由Kaplan和Meier于1958年提出,因此称Kaplan-Meier法,通常简称KM法。KM法是这样估计生存曲线:首先计算出活过一定时期的病人再活过下一时期的概率(即生存概率),然后将逐个生存概率相乘,即为相应时段的生存率。

如果有两组病人的的生存曲线有所不同,但生存率差别是否有统计学意义呢,这可以用log rank test(时序检验或对数秩检验)来检验。log rank test是计算不同日期两种(或多种)疗法的暴露人数及出现终点人数,计算不同时期期望人数与实际出现终点的差值,以此可作卡方检验作出判断。当P<0.05,认为两组或多组总体生存曲线差别有统计学意义。

简单的谷歌搜索,就找到了答案,在 https://stats.stackexchange.com/questions/124489/how-to-calculate-the-hr-and-95ci-using-the-log-rank-test-in-r  教程里面,作者 是根据书本的公式自己写的代码:According to the book Survival Analysis: A Practical Approach, I got two formulas on Page 62 and 66 to do this (as shown below). So I wrote the R code as below, is there anybody know whether I'm right?

有趣的是他也不确定是否正确,所以我找到的链接其实是他在向广大网友求助

使用的是R语言,代码比较长:

library(survival)
data.survdiff <- survdiff(Surv(time, status) ~ group)
p.val = 1 - pchisq(data.survdiff$chisq, length(data.survdiff$n) - 1)
HR = (data.survdiff$obs[2]/data.survdiff$exp[2])/(data.survdiff$obs[1]/data.survdiff$exp[1])
up95 = exp(log(HR) + qnorm(0.975)*sqrt(1/data.survdiff$exp[2]+1/data.survdiff$exp[1]))
low95 = exp(log(HR) - qnorm(0.975)*sqrt(1/data.survdiff$exp[2]+1/data.survdiff$exp[1]))

我使用公式计算后发现,他计算的是基因低表达量组的hazard ratio值,也就是说,如果hazard ratio值小于1,表明这个低表达是保护因子,所以这个基因高表达就是风险因子,是不是听起来有点绕口,这个其实就有点类似于我们的差异表达分析,我们使用limma等R包计算差异基因的上调下调也是遇到同样的困境,case相当于control的上调基因,其实就是control相当于case的下调基因。

另外,附上生存分析需理解的的定义:

  1. 生存分析,是将终点事件出现与否与对应时间结合起来分析的一种统计方法;

  2. 生存时间,是从规定的观察起点到某一特定终点事件出现的时间,如膀胱癌术后5年存活率研究,及膀胱癌手术为观测起点,死亡为事件终点,两点为生存时间;

  3. 完全数据,观测起点到终点事件所经历的时间,上述例子即膀胱癌手术到因膀胱癌死亡的时间;

  4. 删失数据,因失访、研究结束终点事件未发生或患者死于规定的终点事件以外的原因而终止观察,不能确定具体生存时间的一类数据;

  5. 生存概率,表示某时段开始存活的个体到该时段结束仍存活的概率,p=活满某时段的人数/该时段期初有效人口数;

  6. 生存率,为观察起点起到研究时间点内各个时段的生存概率的累积概率,S(tk)=p1.p2.pk=S(tk-1).pk;

  7. 生存曲线,以生存时间为横轴,将各个时间点的生存率连在一起的曲线图;

  8. 中位生存期,又称半数生存期,表示50%的个体存活的时间;

  9. PH假定(等比例风险假定),某研究因素对生存的影响不随时间的改变而改变,是COX回归模型建立的前提条件。

实际上,没有必要这样做,因为coxph本身 就可以返回HR值,这里我不得不指出很久以前的批量生存分析教程的一个小瑕疵:

都可以批量做生存分析了,还要网页工具干嘛?

批量COX回归生存分析图,指定挑选lncRNA基因,森林图,ROC曲线打包给你

如果你不理解代码,仅仅是跑所谓高手/大佬的代码,就会出现南辕北辙的后果,无论如何都需要用自己的理解力来判断代码是否适用于你的情况,上下调搞反了,风险因子或者保护因子也会搞混!

(0)

相关推荐

  • 自驾环游中国(计划)

    去程: 1️⃣广东· #江门 -福建· #福州 ,1002km,12hr,¥598 2️⃣福建·福州-浙江· #杭州 ,629km,8.5hr,¥373 3️⃣浙江·杭州- #上海 ,182km,2. ...

  • 热图系列1

    热图(heatmap)用不同的颜色和颜色的深浅来直观的展示数据之间的差异.在测序类的文章里,几乎必有一幅热图用来展示差异表达基因.很多工具都可以完成热图的制作,今天这篇文章主要介绍利用R语言的 phe ...

  • MethSurv:TCGA甲基化分析工具

    导语 DNA甲基化是当前研究最多的表观遗传修饰,对于促进胚胎发育,基因组印记和X染色体失活等重要生物过程至关重要.在甲基化研究的技术手段中,HM450K芯片在癌症甲基化组数据集中占主导地位.TCGA数 ...

  • TCGA+biomarker

    引用:Clariom;  https://www.jianshu.com/p/8b257d1ff818生存分析KM法与Cox法异同KM 方法即Kaplan-Meier survival estimat ...

  • 风险比率(Hazard ratio,HR)

    风险率(Hazard Rate),是单位时间内发生的事件数占被试总体的百分比. 风险比率,正式的英文名称是Hazard Ratio.风险比率是两个风险率(Hazard Rate)的比值.在医学和公共研 ...

  • 乳腺癌易感基因突变与患者生存结局

    乳腺癌易感基因BRCA1和BRCA2是重要的抑癌基因,如果发生致病突变,容易引起乳腺癌等恶性肿瘤.不过,关于BRCA突变对乳腺癌患者生存结局的影响,既往研究结果不一致. 2021年2月9日,施普林格自 ...

  • R语言统计系列第13篇-K-M生存曲线与logrank检验

    白介素2的读书笔记,分享临床科研干货,一起见证时间的力量 [科研绘图需求点我][付费精品合集][SEER点我] [临床预测模型专辑点我][生物信息数据库挖专辑点我] [临床数据挖掘专辑点我][SEER ...

  • 古代强大的匈奴是什么人种?科学家用DNA检验后,发觉事情不简单

    前言:汉宣帝时,匈奴四分五裂,五单于争名夺利.公元53年,南匈奴头领呼韩邪率军投降汉朝."入长安朝拜君王,自请为婿,元帝遂选婢女赐之." 有些人说性格可以决定一个人成功与失败,从客 ...

  • 一妇女生小孩,竟然5个男子都说是小孩的父亲,医师检验后,不谈定了

    在日常生活中总有许多事,我们自已做不到,就需他人的帮助,他人帮助后,我们还记得必须要感谢. 据了解,某医院的产房里有一位女人生孩子,女人在里边生了好长时间都没生下来,并且还大出血,医师都特别的焦急,害 ...

  • S7-200SMART PLC断电后如何保持高速计数器当前值及常见问题解答

    S7-200 SMART PLC的断电数据保持不支持高速计数器的范围设置,因此高速计数器的当前值在CPU每次断电后都会复位为数值0,要使S7-200 SMART PLC高速计数器的当前值在CPU断电重 ...

  • 股票补仓后成本价怎么计算

       在股票市场中,股票补仓的情况是很常见的,这个肯定是需要花到的钱,所以股民们会想知道这个需要多少的成本,成本的价格应该如何去计算,下面为大家分享一些具体的公式哦.    股票补仓是指投资者在持有一 ...

  • 古希腊发现千年沉船,捞出一件“铜盘”,修复后却能计算加减乘除

    说了这么多国内的考古事件,估计不少网友想去了解下国外的考古事件,其实国外也有许多让人震惊的考古成果,比如和我们同是四大文明古国的古希腊,在1900年的时候却发现了一个震惊世界的收获,更是改写了整个计算 ...

  • [css] 第95天 当一个元素被设置为浮动后,它的display值变为什么呢?

    今日试题: 当一个元素被设置为浮动后,它的display值变为什么呢? 此开源项目四大宗旨:勤思考,多动手,善总结,能坚持 <论语>,曾子曰:"吾日三省吾身"(我每天多 ...

  • 域名解析后主机记录和记录值怎么填写?都是什么意思?

    主机记录: 主机记录就是域名前缀,常见用法有: www:解析后的域名为 www.1756260160.com @:直接解析主域名 1756260160.com :泛解析,匹配其他所有域名 *.1756 ...

  • CTA扫描降低KV后,为什么血管CT值反而会升高?可提高图像质量!

    上腹部MRI扫描,呼吸触发和屏气扫描对图像的影响为什么胰腺MRI扫描中T1对病灶的检出率高于T2?肝脏MRI扫描技术肝脏 MRI 常规扫描序列的意义及信号分析相关概念一.什么是CT值CT值是指组织的X ...