使用R包下载TCGA全部癌症的somatic突变信息

半年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它) 还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全

但是最近收到学员反应,TCGA的maf文件开始控制下载了,下面是提问详情:

非常久之前,整个TCGA数据库的全部数据都是提供下载的,包括fastq,bam,vcf, 但是呢,后来因为保护病人隐私,就只开放maf格式的somatic突变数据下载。学员在下载全部TCGA数据库的maf的时候,突然间发现,受限制了:

我仔细查看了其更新说明:https://docs.gdc.cancer.gov/Data/Release_Notes/Data_Release_Notes/

MAFs are not yet available for query or search in the GDC Data Portal or API.

You may download these files using the following manifests, which can be passed directly to the Data Transfer Tool. Links for the open-access TCGA MAFs are provided below for downloading individual files.

  • Open-access MAFs manifest

  • Controlled-access MAFs manifest

虽然官网装模作样的提供了一个公开版的maf下载,事实上我并没有下载成功,不知道为什么。

回答分割线

癌症的somatic突变概念需要自行搜索学习,如果你还不了解maf格式,请看:https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

TCGAmutations包整合了TCGA中全部样本的maf文件

 # TCGAmutations包整合了TCGA中全部样本的maf文件
  # devtools::install_github(repo = "PoisonAlien/TCGAmutations")
  library(TCGAmutations)
  tmp=as.data.frame(tcga_available())

有趣的是,这些信息是基于hg19参考基因组的.

数据量如下:

对somatic突变可以做的分析

首先是全景图哦,比如 READ癌症的:

也可以是批量计算MATH值(代表肿瘤病人内部异质性的指标),可以看到不同癌症的MATH值分布不一样的。

还可以是生存分析,因为下载maf的时候,也顺便把临床信息下载过来了,比如 LIHC病人的男性和女性生存就有差异哦。

也就是说回答了昨天的问题:https://mp.weixin.qq.com/s/rTSf8vDWnDbmosBA1hXiGw

生存分析时间点问题

当然啦,这么多数据肯定还有更多更好玩的哈,后续主要是看大家的想法,有想法,写代码都好说,直接查看生信技能树的全部GitHub代码即可。

写在最后

因为这个学员问题比较简单,没有资格列入我的TCGA 28篇教程,所以大家就随意看看哈!

(0)

相关推荐

  • maftools : 总结、分析、可视化

    转自:程凉皮儿:https://www.jianshu.com/p/7b02459defedmaftools_2clp02 June, 2020maftools : 总结.分析.可视化 MAF文件ma ...

  • 下载TCGA所有癌症的maf文件计算TMB

    明白什么是TMBTMB (Tumor mutation burden)的定义:癌症样本全基因组中去除胚系DNA变异后体细胞突变数目.比如Lawrence,MS团队在Nature上发表的研究中,将超过1 ...

  • 下载TCGA所有癌症的maf文件做signature分析

    才sanger研究所已经做好了这个分析,但是值得我们重复一下,效果如下: TCGA所有癌症的mutation signature 首先TCGA所有癌症的maf文件 maf格式的mutation记录文件 ...

  • 手把手教你用R语言下载TCGA数据:UCSCXenaTools – sci666

    各位朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推 ...

  • TCGA各大癌症的somatic突变全景图鸟瞰(动态交互)

    前面我们开通了明码标价专栏: ATAC-seq项目的标准分析仅收费1600 单细胞转录组的质控降维聚类分群和生物学注释仅收费800 普通转录组上游分析仅收费800 公共数据库的WGCNA分析仅需800 ...

  • 使用R语言的cgdsr包获取TCGA数据

    前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记 --jimmy 第一篇目录 TCGA数据源 ...

  • TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据

    前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记 --jimmy 往期目录如下: 使用R语言的 ...

  • TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据

    前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计28篇教程! --jimmy 往期目录如下: 使用R语言的cg ...

  • TCGA(转录组)差异分析三大R包及其结果对比

    最近我们最优秀的R语言讲师小洁也开启了TCGA知识库打卡之旅,分享一下她其中一个学习成果,TCGA(转录组)差异分析三大R包及其结果对比. 如果你跟着她的教程学会了相关分析,可以尝试完成一个学徒作业: ...

  • 【紧急通知】下载R包却联网失败?初学者的痛

    Windows电脑使用R语言有几个绕不过去的坑,就是管理员权限,中文用户名等等,所以我们开展R语言学习班,都需要重新发几次:Windows电脑使用Rstudio会有多少错误呢 ,有一个联网问题本来是疑 ...