使用R包下载TCGA全部癌症的somatic突变信息
半年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它) 还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全
但是最近收到学员反应,TCGA的maf文件开始控制下载了,下面是提问详情:
非常久之前,整个TCGA数据库的全部数据都是提供下载的,包括fastq,bam,vcf, 但是呢,后来因为保护病人隐私,就只开放maf格式的somatic突变数据下载。学员在下载全部TCGA数据库的maf的时候,突然间发现,受限制了:
我仔细查看了其更新说明:https://docs.gdc.cancer.gov/Data/Release_Notes/Data_Release_Notes/
MAFs are not yet available for query or search in the GDC Data Portal or API.
You may download these files using the following manifests, which can be passed directly to the Data Transfer Tool. Links for the open-access TCGA MAFs are provided below for downloading individual files.
Open-access MAFs manifest
Controlled-access MAFs manifest
虽然官网装模作样的提供了一个公开版的maf下载,事实上我并没有下载成功,不知道为什么。
癌症的somatic突变概念需要自行搜索学习,如果你还不了解maf格式,请看:https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
TCGAmutations包整合了TCGA中全部样本的maf文件
# TCGAmutations包整合了TCGA中全部样本的maf文件
# devtools::install_github(repo = "PoisonAlien/TCGAmutations")
library(TCGAmutations)
tmp=as.data.frame(tcga_available())
有趣的是,这些信息是基于hg19参考基因组的.
数据量如下:
对somatic突变可以做的分析
首先是全景图哦,比如 READ癌症的:
也可以是批量计算MATH值(代表肿瘤病人内部异质性的指标),可以看到不同癌症的MATH值分布不一样的。
还可以是生存分析,因为下载maf的时候,也顺便把临床信息下载过来了,比如 LIHC病人的男性和女性生存就有差异哦。
也就是说回答了昨天的问题:https://mp.weixin.qq.com/s/rTSf8vDWnDbmosBA1hXiGw
当然啦,这么多数据肯定还有更多更好玩的哈,后续主要是看大家的想法,有想法,写代码都好说,直接查看生信技能树的全部GitHub代码即可。
写在最后
因为这个学员问题比较简单,没有资格列入我的TCGA 28篇教程,所以大家就随意看看哈!
TCGA的28篇教程-使用R语言的cgdsr包获取TCGA数据(cBioPortal)
TCGA的28篇教程-使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)
TCGA的28篇教程-批量下载TCGA所有数据 ( UCSC的 XENA)