MethSurv:TCGA甲基化分析工具
导语
DNA甲基化是当前研究最多的表观遗传修饰,对于促进胚胎发育,基因组印记和X染色体失活等重要生物过程至关重要。在甲基化研究的技术手段中,HM450K芯片在癌症甲基化组数据集中占主导地位。TCGA数据库中收录的也是450K芯片的数据,今天要介绍的就是基于TCGA、 GDAC Firehose数据集的450K数据,通过Biotab将下载的甲基化数据与包括生存状态,患者特征(年龄,性别,身高,体重,种族等)以及临床病理特征(例如癌症的分期和等级等)的临床数据进行匹配在线可视化分析工具:MethSurv。
MethSurv是一个基于CpG甲基化模式进行生存分析的网络工具,有25种不同人类癌症的7358个甲基化数据,使用了Cox比例风险模型开发了用于生存分析的交互式网络工具。MethSurv能够对位于查询基因附近或附近的CpG进行生存分析,还可以提供对查询基因的聚类分析,以将甲基化模式与临床特征相关联,并筛选出每种癌症类型的主要生物标志物。对于不会编程的科研人员来说,MethSurv工具是一个十分有用的平台,用户可以对基于甲基化的癌症生物标记物进行初步筛选评估,在几秒钟内生成分析结果,给甲基化研究带来很多便利。
MethSurv
https://biit.cs.ut.ee/methsurv/
进入MethSurv主页,我们可以看到该网站对于甲基化分析主要分为五个部分,Single CpG、Region based analysis、All cancers、Top biomarkers和Gene visualization,接下来一一介绍:
01
Single CpG
单个CpG位点的甲基化情况
网站提供了单个CpG位点的详细概述,并提供了选择基因组区域选项,将高低甲基化患者群体分为两类临界点。在页面左侧分别选择TCGA不同癌症类型数据集、研究的基因、CpG区域、基因区域、探针、生存分组时的设置方法,最后选择是否校正协变量,大家要要严格按顺序填入或选择要分析的条目。
本次选择内容如下:
点击后呈现结果如下
Part1:Kaplan meier
MethSurv使用Cox比例风险模型基于患者CpG部位(探针)的甲基化水平执行单变量和多变量生存分析,范围是OS整体生存。通过Kaplan–Meier(KM)图可以看出较低和较高甲基化患者组之间的生存差异,X轴表示以天为单位的生存时间,Y轴表示患者生存的概率。红色和蓝色的曲线并不会因为纳入或更换临床因素而改变(只与探针的甲基化程度有关,且多因素分析中纳入的临床因素有限),但是LR test p-vale和HR值会改变(因为在多因素分析中受其他因素的影响),组间生存差异用的Log-likelihood ratio。
Part2:Density
密度图可用来可视化突出显示将患者甲基化水平二分法的临界点,突出显示在MethSurv中评估的所有截止点。横坐标为 β-values,纵坐标为特定β-values值所对应的样本比例,可见所有样本中该CpG位点的β-values,不同颜色的竖线表示不同的分类点,红色数字表示当前使用的分界点以对患者进行分组,由此来探索与查询基因有关的其他信息。
Part3:Violin plots
小提琴图用于表示不同样本组间甲基化差异(主要是基于临床因素的分组),用以查询CpG位点的甲基化分布、中位和四分位数范围与患者特征(例如年龄,性别,临床阶段有关)等,小提琴图显示了不同年龄组之间的甲基化水平。
Part4:Survival analysis summary
生存分析结果表即为一些分析常用指标结果,Best_split,是使得HR结果最大时的分类点。网站还提供了外部浏览器的链接,包括“ GeneCards” ,“ COSMIC” 和“ Gene Ontology” 。
02
Region based analysis
特定癌症类型分析
Region based analysis选项可以检索任何特定癌症类型,选择的基因组区域可用一种或多种CpG进行生存分析。
选择癌症、染色体、碱基位置
右侧展示板会出现该染色体上探针的生存分析结果,包括HR、CI、P-valu、LR-test-pvalue、Best_split、CHR、MAPINFO、UCSC_RefGene_Name、UCSC_RefGene_Group、Relation_to_UCSC_CpG_Island等相关数据信息,右上方search框内可以进行搜索,比如输入基因Symbol、探针名称或者显示的结果表中出现的任何字匹配字符。会显示出对应的CpG位点的生存分析结果,以及注释信息。
PS:此处的Best_split不包含maxsta分类点,如果找包含maxsta分类点在内的最优分类点,以Single CpG中的结果为准。
选择一个探针后,会显示对应的生存曲线图,下方可以选择自己需要的图片格式进行下载。
03
All cancers
基因或CpG位点在其他癌型中的甲基化情况
All cancers模块可以查看目标基因或CpG位点在其他癌型中的甲基化情况,左侧输入目标基因,在右侧search输入框中输入目标探针或者癌型即可,点击表格左侧的Click for KM Plot可以查看CpG位点在该癌型患者中的预后情况( 取maxsta分类点以外的最优分类点对样本分组 )。
可以看到,“All cancers”选项和“Region based analysis”的分析选项都提供了生存分析图,这样方便我们研究来自所选基因或基因组区域中哪些CpG具有最佳预测癌症生存的特性。
04
Top biomarkers
顶级生物标志物
Top biomarkers模块提供所选癌症类型排名靠前的生存生物标志物(结合生存分析得到的HR值及显著性P值筛选出最优的一部分甲基化CpG位点),以便于同时测试整个基因组中的所有CpG标志物,可以靠前探针的查看生存分析图。
05
Gene visualization
基因可视化
这里会以热图的形式对所查询基因中单个CpG进行聚类分析,将甲基化水平与可用的患者特征和基因亚区域相关联。热图甲基化水平(1 =完全甲基化;0 =完全未甲基化)显示为从蓝色到红色的连续变量。行对应于CpG,列对应于患者,自动出图,简直可以拿去发表了~
Heat map for RBL2 in READ