PrognoScan:肿瘤生信文章分析基因预后宠儿
PrognoScan(http://dna00.bio.kyutech.ac.jp/PrognoScan/index.html),整合了大量带有预后信息的芯片数据集,站内基本上包括了大部分的肿瘤数据,可以用来分析基因表达与患者预后的关系,例如总体生存期(OS)和无病生存期(DFS),也成为各大肿瘤生信文章中分析基因预后的宠儿。
极简主义风格的首页一、PrognoScan数据库基本介绍在癌症研究中,基因与临床结果之间的关联表明该疾病的潜在病因,因此可以激发进一步的研究。PrognoScan数据库特点:具有临床注释的大量可公开获得的癌症微阵列数据集。在PrognoScan创立前,已有许多带有临床注释信息的癌症芯片数据集向大众开放,但对各个数据库来源的数据集信息之间并不联通,还有各种限制难以访问。为了充分利用公共资源,2009年日本人开发了 PrognoScan。数据库通过大量收集公开的癌症芯片数据集来探索基因表达与患者临床预后(如总体生存期(OS)和无病生存期(DFS)等)之间的关系,提供了最佳的整合结果,给使用者提供了许多便利。
以最小P值法对患者分组进行生存分析。标准的生存分析包括两个步骤:对患者进行分组;比较各组之间的风险差异。PrognoScan是一个可以评估基因表达与预后之间生物学关系的工具。采用最小P值方法,the minimum P-value approach对患者进行分组以进行生存分析,该方法无需连续的生物学知识或假设即可在连续基因表达测量中找到最佳切入点,毕竟,按经验选用中位数/三分位数/四分位数进行分组并不一定就能反应一个基因真实的生物学功能。因此最小p值法是一种对连续性变量寻找最佳风险分离临界点的综合性分析方法,解决了用户自行分析时的痛点,并已在肿瘤大小分析、细胞周期测量以及基因拷贝数分析中显示了其高实用性。二、PrognoScan数据库操作详解输入网址进入数据库主界面,界面各功能示意如下:Find gene at Entrez---链接至NCBI基因检索页面about---PrognoScan数据库的基本介绍,包括背景、功能、结果展示datasets---PrognoScan数据库所引用的数据集manuscript---需要引用的参考文献
最后在输入框内输入基因名称--点击submit提交-进行分析。PS:可以同时进行单基因检索或者输入多基因进行检索,后者最后呈现的方式是多个基因的结果依次排列,相当于多次检索单基因得到的结果。
以国人的这篇文章中的LAYN基因为例,在输入框内输入“LAYN”---点击“submit”。呈现结果如下:
如上图所示,LAYN的预后信息有眼癌、膀胱癌和肺癌、乳腺癌、卵巢癌。PrognoScan数据库以表格形式展示结果,列有数据集、癌症类型、亚型、临床研究终点、队列、数据提供者、芯片类型、探针ID、患者数量、最佳分割点、最小p值以及校正后p值等信息。在第一列最末端“Download”按钮点击可下载tsv格式的表格进行进一步的分析和作图。对应的,点击第一列【DATASET】下的链接可进入相应的GEO数据库页面。
点击第八列【PROBE ID】列的链接可以进入下一步更详细的分析结果页面。以【ILMN_1716397】为例,点击显示如下页面:
上图显示,在一项Rotterdam的队列中,共纳入患者138例,分析膀胱癌的无转移生存期,其中最佳的分组分割点在第18个百分位数(CUTPOINT为0.18),此时的p值最小(MINIMUM P-VALUE为0.175536),由此划分的LAYN高表达组预后有意义(CORRECTED P-VALUE为0.001)。点击下方的“Download table”可以下载表格进行后续分析。页面下拉,PrognoScan数据库同时提供了6种可视化图形。第一张图为基因表达图,通过给定基因的表达值对患者进行排序。X轴显示患者的累积数,Y轴显示表达值。直线(青色)显示了将患者分为高(红色)和低(蓝色)表达组的最佳分割点。
第二张图为表达直方图,显示了表达值的分布,其中X轴显示患者数,Y轴显示表达值,同时青色线条显示了最佳分割点。
第三张图为P值图,对于基因表达值的每个潜在分割点将患者分为高表达组和低表达组,并通过log-rank检验计算生存差异。X轴表示患者累计数,Y轴表示经对数处理后的原始P值。青色线表示经确定并最小化P值的分割点,灰线表示5%的显着性水平。
第四张图为Kaplan-Meier图,绘制了由最佳分割点二分的高(红色)和低(蓝色)表达组的生存曲线。X轴代表时间,Y轴代表存活率,每组的95%置信区间用虚线表示。
第五张图为生存时间图,其中X轴显示患者的累积数,Y轴显示存活时间,黑色点代表删失数据,粉红色点代表无删失数据,青色代表最佳分割点。
最后一张为属性分布图,依据上述表格最后提供的MARKER以及SCORE信息所做。点击图片上方下载按钮即可下载图片,丰富文章的图表内容。
总的来说,PrognoScan数据库有以下特点:优点大样本数据量收集;为基因的预后价值提供系统分析工具;为评估潜在的肿瘤标志物和原癌基因提供有力的分析平台;不足队列:不同研究背景的患者临床病程均有所不同;实验因素:包括芯片设计,信号检测等;存在随机误差;有兴趣的读者可以试试这个数据库,不过写论文的时候记得引用它的参考文献哟~PrognoScan: A new database for meta-analysis of the prognostic value of genes. Mizuno H, Kitada K, Nakai K, Sarai A. BMC Med Genomics. 2009 2:18.