单细胞转录组得到的基因集如何看生存效果呢?(不妨试试看GSVA)
最近重新看发表于:Cell. 2018 May :Chemoresistance Evolution in Triple-Negative Breast Cancer Delineated by Single-Cell Sequencing. 有一个附件图表很有趣,值得学徒学习。
根据作者的单细胞研究,找到了化疗耐药相关通路, The gene signatures associated with chemore- sistance included EMT, CDH1 targets, AKT1 signaling, hypoxia, angiogenesis, and ECM degradation.
所以就可以挖掘公共数据库,对指定的6个基因集,在表达矩阵里面计算GSVA值,然后把病人分组看生存差异。
首先需要拿到基因集
图中的6个基因集, EMT, CDH1 targets, AKT1 signaling, hypoxia, angiogenesis, and ECM degradation 在中文有描述:
不过,看这么多文献不现实,有一个简单的方法,就是去查询msigdb数据库,通常都是有的。
http://software.broadinstitute.org/gsea/msigdb/index.jsp
http://software.broadinstitute.org/gsea/downloads.jsp
基本上都是在 h.all.v6.2.symbols.gmt ,拿到的基因集如下:
HALLMARK_HYPOXIA http://www.broadinstitute.org/gsea/msigdb/cards/HALLMARK_HYPOXIA
HALLMARK_EPITHELIAL_MESENCHYMAL_TRANSITION
HALLMARK_ANGIOGENESIS http://www.broadinstitute.org/gsea/msigdb/cards/HALLMARK_ANGIOGENESIS
HALLMARK_PI3K_AKT_MTOR_SIGNALING
Gene Set: BIOCARTA_ECM_PATHWAY
最后一个基因集,比较曲折,需要看文献:Loss of E-cadherin promotes metastasis via multiple downstream transcriptional pathways
然后下载METABRIC表达矩阵
在我GitHub有详细教程:https://github.com/jmzeng1314/METABRIC
需要注意的是这里要挑选病人,with gene expression data and long-term clinical follow-up data to
determine if any of the chemoresistance-associated signatures correlated with patient survival.
接着使用GSVA算法在METEBRIC数据集计算
同样是在我GitHub有详细教程:https://github.com/jmzeng1314/GEO
最后生存分析
很简单的代码了咯,需要注意的是:apply家族函数和for循环还是有区别的(批量生存分析出图bug)参考:https://mp.weixin.qq.com/s/efI8U2lb3UfMwLp94iqw1Q