TCGA单基因免疫相关泛癌分析
最近写了一段代码,基于肿瘤TCGA数据库进行一系列分析。只要输入基因名,就可以得到以下结果(注意:只能是mRNA的gene symbol)
1 泛癌表达:该基因在33种肿瘤中的表达
2 差异表达:肿瘤vs正常差异表达情况
3 肿瘤分期表达:WHO分期表达情况(Stage I II III IV)
4 配对差异表达:配对的肿瘤vs正常差异表达情况
5 生存分析
6 ROC曲线
7 GO KEGG富集分析:包括分析结果文件,气泡图和条形图
8 GSEA分析:包括分析结果文件,波浪图和circle图
9 免疫浸润分析:包括分析结果文件,相关性circle图,点线图,差异表达图(可能够发一篇中文或者低分的SCI了)
所有的图均是矢量图,pdf格式,所有细节,配色,文字等都可以用 adobe illustrator(AI)修改
TCGA表达谱和临床资料来源于UCSC XENA网站:
https://xenabrowser.net/datapages/?cohort=TCGA%20Pan-Cancer%20(PANCAN)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443
下面举例详细介绍每一部分的结果
1 泛癌表达
利用TCGA数据库的33个肿瘤组织,按照表达值(均值)从低到高排序展示基因的表达值。
每个肿瘤的病例数如下
2 差异表达
每个肿瘤的病例数如下
每个正常组织样本量如下
TCGA肿瘤中该基因的差异表达情况,共33张图,比如SPP1在肝癌中的表达(t.test)
当然有的肿瘤在TCGA没有正常组织,就只能这样:
3 肿瘤分期表达
具体肿瘤各分期病例数
Stage I
Stage II
Stage III
Stage IV
该基因在肿瘤的WHO分期中的差异表达情况,也是33张图(t.test)
当然,如果该肿瘤没有分期信息,就只能这样:
4 配对的肿瘤和正常组织的表达
配对样本中,肿瘤与正常组织是一样的,例如肝癌,肿瘤50,正常50。
也是33张图(配对t检验),比如:
当然,如果没有正常组织或者配对组织,就只能这样:
5 生存分析
该基因在33种肿瘤中的生存分析,以表达值中位数分为高低表达组,比如肝癌:
比如低级别胶质瘤
6 ROC曲线
该基因在33种肿瘤中的ROC曲线,不过单个基因的ROC效果一般不会太好。不同肿瘤患者的生存时间和状态可能会有一些差异,所以做了1,3,5,8年的ROC曲线,导出的都是矢量图,比如需要5年的,把其他年份的曲线去掉就行了。
(False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率)
(True Positive(真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率)
7 批量相关性分析,GO KEGG分析
在33个肿瘤中,分别做该基因与其他所有基因的相关性分析,导出结果文件。并取正相关和负相关最明显的50个基因做相关性热图。pearson方法计算相关性
正相关热图:
负相关热图
该基因在33个肿瘤中的富集分析,用的R包是鼎鼎有名的clusterprofiler,导出结果33*4个文件,33*4个气泡图和33*4个条形图。方法是选择与该基因正相关最显著的top300基因,包括该基因,组成一个基因集进行富集分析,来预测该基因的功能通路等。
气泡图
有人说不会看这个图,其实看坐标就行了,颜色代表矫正的P值,颜色越红,P值越小。圈的大小表示正相关的top300个基因有多少基因被富集到特定基因集(Term)中。GeneRatio指富集到某个特定基因集(Term)中基因在所有用来做富集分析的基因中所占的比例
条形图
有一种情况就是,这top300基因根本富集不到任何东西,文件和图都是空的。这种情况,就只能自己拿着相关性分析的结果,调试一下top基因数,或者用其他方法分析和作图了。
8 GSEA分析
用该基因在33种肿瘤分别做GSEA分析,也是用clusterprofiler包,包括GO,KEGG和Reactome。一个肿瘤可以导出10个文件和图。其中有R.DATA文件,如果你会使用R语言和clusterprofiler包,可以导出单个通路的GSEA图。本来我也想着把所有P<0.05的结果单个GSEA都导出来,奈何太多了,一个基因一个肿瘤可能会有上千个。
波浪图是这样的
每个肿瘤还有个circle图,展示了每个GSEA项目的按照p.adjust排序前50个term。
9 免疫浸润相关性分析及circle图
在32个肿瘤(去除LAML)中,该基因与26种免疫细胞浸润的相关性分析结果,及circle图。(pearson)
细胞浸润的结果来自于下面这篇文献的table S1,用的是CIBERSORT 方法。注意:相关性分析,均是用的数据都是cancer,没有用normal的数据。
有人会说,CIBERSORT不是可以分析22种免疫细胞,这里为什么结果中有26种呢?我们仔细看一下原文的方法
作者做了个简单的加法而已,所以我们的结果中有26种细胞
对于圈图的展示,选择与该基因pearson相关性系数r>0.15的细胞,进行相关性circle作图。有的细胞在某一种肿瘤的浸润分数全都是0,这种情况做相关性分析结果是缺失值,可能会导致作图失败。所以用0来代替R值,1来代替P值,也就是完全没有相关性。
红色代表正相关,绿色代表负相关。
另外,如果该基因与免疫细胞浸润的相关性r>0.15的细胞不超过3,是没法做circle图的。这种情况就用所有的结果作图,图是这这样的,其中SPP1的作用就很不起眼:
10 基因与免疫细胞浸润的相关性点线图
32*26张图,比如肝癌中SPP1与巨噬细胞的相关性。(不管有没有相关性,都出图了)
11 免疫细胞差异表达图
在32个肿瘤中,分别用该基因的中位数将样本分为高低表达组,对免疫细胞进行差异表达作图。共32张图。
算的没错的话,总共有1914个图和文件。
目前该服务的优惠价在199元。可通过扫描下方二维码,在微店下单。下单请务必备注:基因名和邮箱。(只能是mRNA,NCBI可查到基因对应的gene symbol,目前还不支持miRNA和lncRNA)最快1小时内发货,最慢2天内发货,不提供代码。