22分的预测模型构建文章是一种怎样的NB?(上)
欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO,SEER数据挖掘。
.
基本介绍
近年来,基于分子表达谱等数据构建预测模型类文章呈现爆炸式增长,太过于普遍,逐渐成为常规了,甚至提不起什么兴趣,来看看22分的预测模型文章该是一个怎样的水平吧?不要把做科研做成上中学时候的考试做题了,我们不是在为了做出一道题,完成一份试卷;我们是在探索未知、开拓人类认知的新边疆。
偶然看到这篇文章的,斯坦福大学医学院2017年发表在 JAMA Oncology杂志上,现在的影响因子是 22.416,
文章标题为:Development and Validation of an Individualized Immune Prognostic Signature in Early-Stage Nonsquamous Non-Small Cell Lung Cancer. 这种标题咱们见得多了,太熟悉了。
摘要
重要性:这种早期肿瘤的发病率高需要可靠的预后生物标志物来鉴定复发风险高的患者,以指导辅助治疗。
研究目的: 为了开发出强大的基于个体化的免疫预后标志物,可以估计这种早期患者的预后。
研究设计
这项回顾性研究分析了来自19个公共NSCLC队列的冷冻肿瘤组织样本的基因表达谱,包括18个微阵列数据集和1个来自 TCGA的 RNA-Seq数据集。仅包括具有临床信息的肿瘤患者。样本来自2414例非鳞状NSCLC患者,分为meta训练队列(729例),meta测试队列(716例)和3个独立验证队列(439、323和207例)。所有患者均接受了手术切缘阴性的手术,未接受任何辅助或新辅助治疗,并且具有可公开获得的基因表达数据和生存信息。数据收集自2016年7月22日至9月8日。
讨论
单从研究的目的,重要性来看,大家都是这么想的,没有什么很难理解的地方。一个比较好的点可能就是研究的是早期的肿瘤、不像有些研究随便拿个肿瘤完整数据集拿出来就做了、构建模型。这样做的方式临床意义不大、而对于分期的肿瘤患者有更好的指导意义。
研究设计上,将多个芯片数据与测序数据整合、再分为训练集、验证集和测试集,技术上有一定的难度,而且融合起来有观点是排斥的、但是人家做了。
本期先到这里吧,预知后事如何,请听下回分解,我是白介素2,下期再见。
参考资料
https://jamanetwork.com/journals/jamaoncology/fullarticle/2643120