PrognoScan:肿瘤生信文章分析基因预后宠儿

PrognoScan(http://dna00.bio.kyutech.ac.jp/PrognoScan/index.html),整合了大量带有预后信息的芯片数据集,站内基本上包括了大部分的肿瘤数据,可以用来分析基因表达与患者预后的关系,例如总体生存期(OS)和无病生存期(DFS),也成为各大肿瘤生信文章中分析基因预后的宠儿。

极简主义风格的首页一、PrognoScan数据库基本介绍在癌症研究中,基因与临床结果之间的关联表明该疾病的潜在病因,因此可以激发进一步的研究。PrognoScan数据库特点:具有临床注释的大量可公开获得的癌症微阵列数据集。在PrognoScan创立前,已有许多带有临床注释信息的癌症芯片数据集向大众开放,但对各个数据库来源的数据集信息之间并不联通,还有各种限制难以访问。为了充分利用公共资源,2009年日本人开发了 PrognoScan。数据库通过大量收集公开的癌症芯片数据集来探索基因表达与患者临床预后(如总体生存期(OS)和无病生存期(DFS)等)之间的关系,提供了最佳的整合结果,给使用者提供了许多便利。

以最小P值法对患者分组进行生存分析。标准的生存分析包括两个步骤:对患者进行分组;比较各组之间的风险差异。PrognoScan是一个可以评估基因表达与预后之间生物学关系的工具。采用最小P值方法,the minimum P-value approach对患者进行分组以进行生存分析,该方法无需连续的生物学知识或假设即可在连续基因表达测量中找到最佳切入点,毕竟,按经验选用中位数/三分位数/四分位数进行分组并不一定就能反应一个基因真实的生物学功能。因此最小p值法是一种对连续性变量寻找最佳风险分离临界点的综合性分析方法,解决了用户自行分析时的痛点,并已在肿瘤大小分析、细胞周期测量以及基因拷贝数分析中显示了其高实用性。二、PrognoScan数据库操作详解输入网址进入数据库主界面,界面各功能示意如下:Find gene at Entrez---链接至NCBI基因检索页面about---PrognoScan数据库的基本介绍,包括背景、功能、结果展示datasets---PrognoScan数据库所引用的数据集manuscript---需要引用的参考文献

最后在输入框内输入基因名称--点击submit提交-进行分析。PS:可以同时进行单基因检索或者输入多基因进行检索,后者最后呈现的方式是多个基因的结果依次排列,相当于多次检索单基因得到的结果。

以国人的这篇文章中的LAYN基因为例,在输入框内输入“LAYN”---点击“submit”。呈现结果如下:

如上图所示,LAYN的预后信息有眼癌、膀胱癌和肺癌、乳腺癌、卵巢癌。PrognoScan数据库以表格形式展示结果,列有数据集、癌症类型、亚型、临床研究终点、队列、数据提供者、芯片类型、探针ID、患者数量、最佳分割点、最小p值以及校正后p值等信息。在第一列最末端“Download”按钮点击可下载tsv格式的表格进行进一步的分析和作图。对应的,点击第一列【DATASET】下的链接可进入相应的GEO数据库页面。

点击第八列【PROBE ID】列的链接可以进入下一步更详细的分析结果页面。以【ILMN_1716397】为例,点击显示如下页面:

上图显示,在一项Rotterdam的队列中,共纳入患者138例,分析膀胱癌的无转移生存期,其中最佳的分组分割点在第18个百分位数(CUTPOINT为0.18),此时的p值最小(MINIMUM P-VALUE为0.175536),由此划分的LAYN高表达组预后有意义(CORRECTED P-VALUE为0.001)。点击下方的“Download table”可以下载表格进行后续分析。页面下拉,PrognoScan数据库同时提供了6种可视化图形。第一张图为基因表达图,通过给定基因的表达值对患者进行排序。X轴显示患者的累积数,Y轴显示表达值。直线(青色)显示了将患者分为高(红色)和低(蓝色)表达组的最佳分割点。

第二张图为表达直方图,显示了表达值的分布,其中X轴显示患者数,Y轴显示表达值,同时青色线条显示了最佳分割点。

第三张图为P值图,对于基因表达值的每个潜在分割点将患者分为高表达组和低表达组,并通过log-rank检验计算生存差异。X轴表示患者累计数,Y轴表示经对数处理后的原始P值。青色线表示经确定并最小化P值的分割点,灰线表示5%的显着性水平。

第四张图为Kaplan-Meier图,绘制了由最佳分割点二分的高(红色)和低(蓝色)表达组的生存曲线。X轴代表时间,Y轴代表存活率,每组的95%置信区间用虚线表示。

第五张图为生存时间图,其中X轴显示患者的累积数,Y轴显示存活时间,黑色点代表删失数据,粉红色点代表无删失数据,青色代表最佳分割点。

最后一张为属性分布图,依据上述表格最后提供的MARKER以及SCORE信息所做。点击图片上方下载按钮即可下载图片,丰富文章的图表内容。

总的来说,PrognoScan数据库有以下特点:优点大样本数据量收集;为基因的预后价值提供系统分析工具;为评估潜在的肿瘤标志物和原癌基因提供有力的分析平台;不足队列:不同研究背景的患者临床病程均有所不同;实验因素:包括芯片设计,信号检测等;存在随机误差;有兴趣的读者可以试试这个数据库,不过写论文的时候记得引用它的参考文献哟~PrognoScan: A new database for meta-analysis of the prognostic value of genes. Mizuno H, Kitada K, Nakai K, Sarai A. BMC Med Genomics. 2009 2:18.

(0)

相关推荐

  • 没钱做单细胞?新替代方案不贵但发了10分

    您的SCI选刊助手!大家好,今天酒酿丸子和大家分享的是一篇9.913分的学习笔记:文末点击阅读原文可获得原文笔记.题目:结直肠癌中肿瘤浸润性CD8 + T细胞在早期与晚期的基因表达差异及预后不良的基因 ...

  • 不研究肿瘤,就用不了TCGA的测序数据库,那要用啥……

    要分析测序数据,一般都会想到的是TCGA (当然GEO上也有部分的测序数据).但TCGA上只有肿瘤的相关研究,我们如想要研究其他疾病,甚至研究其他物种的测序数据, 其实可以看点别的,比如上EMBL-E ...

  • 又一个肿瘤免疫浸润分析利器

    关于TCGA表达数据的分析.之前我们我们介绍过.目前可能用的最多的也就是GEPIA了.之前在GEPIA2发表的时候(GEPIA I, GEPIA II),我们对这个数据库进行了介绍.最近.GEPIA的 ...

  • 基因预后预测数据库

    在进行肿瘤相关研究的时候,如果有这个肿瘤的随访时间和随访的结局,往往都可以进行预后分析.通过预后分析来了解某一个分组(治疗方式,基因突变,基因表达高低)是否影响肿瘤患者的预后.那么如果在基因研究的时候 ...

  • 生信分析44.乳腺癌的免疫浸润,有点创新

    生信论文的套路 ONCOMINE从全景.亚型两个维度做表达差异分析: 临床标本从蛋白水平确认(或HPA数据库),很重要: Kaplan-Meier Plotter从临床意义的角度阐明其重要性: cBi ...

  • 肿瘤预后相关DNA甲基化数据库

    肿瘤预后相关DNA甲基化数据库

  • 2020年还能不用做实验发6分生信SCI?

    今天为大家分享2020年11月9日发表在cancers(IF:6.126)的一篇文章,主要揭示22个粘蛋白基因在胰腺癌中的表达及预后作用,这是一篇极易模仿的纯生信文章,重点在于文章中大部分结果图都是通 ...

  • 可能是最出名的TCGA表达分析数据库(二)

    有小伙伴说想知道GEPIA数据库的用法.正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能.所以就趁着这个机会给大家介绍一下GEPIA2吧.昨天我们介绍了其中一部分,这里我们来说一下后面的一 ...

  • 5.2分SCI 单基因生信+组化验证

    本研究作者旨在探讨钙结合蛋白家族成员S100A16在胰腺癌(pancreatic cancer , PC)中的表达和预后价值评估.首先利用Oncomine检测S100A16在PC等肿瘤中的表达水平及预 ...

  • 生物医学大数据挖掘分析

    随着高通量测序技术的迅猛发展,各种生物医学数据库应运而生,大数据挖掘技术已成为生物医学领域中最新最重要驱动力之一.GEO是当今最大.最全的公共基因数据资源库,包括基因的表达.突变.修饰等信息,涵盖几乎 ...

  • 生信分析,怎么我的文章才3分,别人的能到8分

    文章今年一月份在线发表在Theranostics(IF: 8.579). Identification and validation of hypoxia derived gene signature ...

  • 肿瘤EMT特征在线分析网站

    上皮间质转换(Epithelial-mesenchymal transition, EMT)是一个肿瘤发生过程当中的一个重要过程.这个过程主要是通过上皮细胞失去细胞极性和细胞间粘附力,并获得迁移和侵袭 ...

  • SCI科研写作:仅利用数据库如何做好单基因免疫浸润生信分析

    怎样才能不做实验,不用R语言,还能发3分+SCI? 今天介绍几个可以用得上的数据库,只利用数据库中的数据进行分析,甚至不用R,利用在线分析工具,敲敲电脑就能解决急需发文章,没时间做实验,没有科研经费的 ...

  • 平平无奇,8个数据库凑一篇5+纯生信?别犹豫了,赶紧上车!

    解螺旋公众号·陪伴你科研的第2562天 零代码复现基因家族分析 今天我为大家带来一篇发表在Frontiers in Oncology杂志上,影响因子为4.848的一篇分析基因家族的生信文章,之前我复现 ...

  • 非肿瘤(口腔科)也做数据挖掘啦

    一提到数据挖掘,可能大家都会想到肿瘤数据挖掘,而是忽略非肿瘤的方向.今天,我们就给大家介绍一下非肿瘤方向的数据挖掘.作者是日本人,研究是的慢性牙周炎,也就是口腔科,文章发表在BMC Oral Heal ...

  • 如何利用ICGC数据库来寻找一个突变相关课题

    如何利用ICGC数据库来寻找一个突变相关课题 昨天我们介绍了ICGC来浏览PCAWG数据的基本功能.昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看. 以下是 ...

  • 聊着天就把分析给做了

    之前我们介绍过一些用来预测基因在肿瘤当中表达情况的数据库.例如,GEPIA.UALCAN这些的.这些的数据库主要是通过输入目标基因,同时点击想要进行分析的模块就可以返回相关的结果.如果厌倦了点点点的话 ...