TCGA数据库下载:多种方法及优缺点介绍

早就告诉圈内好友,我把自己的28篇TCGA教程的部分知识点录制成为了视频,虽然播放量很少,但是看过的朋友都说收获很大,而且还有专门的笔记系统性介绍自己学习的收获,今天我们就分享其中一位优秀学员的笔记:

数据挖掘必看视频,实际上我发现很多人从我这里学习到知识点后刻意抹去我的存在,进行所谓的二次创作!
也刻意不转发给身边有需要的朋友,我不是很能理解它们的意图!

在TCGA数据库下载文件有很多种方法:

一.利用R语言下载

(本文重点介绍这个)

R语言有很多不同的包可以用于下载TCGA文件(意思就是不同的代码实现下载TCGA数据的同一目的)

方法1:TCGAbiolinks包

(首推这个方法!!目前没发现明显缺点) TCGA数据下载—TCGAbiolinks包参数详解TCGA数据下载—TCGAbiolinks包参数详解

library(TCGAbiolinks)#加载包
query <- GDCquery(project = "TCGA-DLBC", #选定要下载的肿瘤类型
                     data.category = "Transcriptome Profiling",#选定要下载的数据范畴
                     data.type = "Gene Expression Quantification",#选定要下载的数据类型
                     workflow.type = "HTSeq - Counts"#选定要下载RNAseq的-COUNT文件
)#这个过程和官网的筛选是差不多的,和下图的筛选是实现的同样的目的image
GDCdownload(query, method = "api", files.per.chunk = 100)
expdat <- GDCprepare(query = query)
library(SummarizedExperiment)
count_matrix=assay(expdat)
write.csv(count_matrix,file = paste("TCGA-DLBC","Counts.csv",sep = "-"))
#下载,并把文件保存

方法2:RTCGAT包

source("https://bioconductor.org/biocLite.R")
biocLite("RTCGA")
# Install the clinical and mRNA gene expression data packages
biocLite("RTCGA.clinical") ## 14Mb
biocLite('RTCGA.rnaseq') ##  (612.6 MB)
biocLite("RTCGA.mRNA") ##  (85.0 MB)
biocLite('RTCGA.mutations')  ## (103.8 MB)
##加载包,这些包里面存的是相应的数据
library(RTCGA)
all_TCGA_cancers=infoTCGA()
library(RTCGA.clinical) 
library(RTCGA.mRNA)

## 从下载的数据包中提取我们需要的文件,需要选择癌症种类,还有数据的种类等,基因种类等
library(RTCGA)
library(RTCGA.mRNA)
expr <- expressionsTCGA(BRCA.mRNA, OV.mRNA, LUSC.mRNA,
                        extract.cols = c("GATA3", "PTEN", "XBP1","ESR1", "MUC1"))

缺点:它是先下载所有已经存储的数据,然后从里面挑选你要的,缺点一是下载所有数据是因为文件太大会很慢,缺点二是数据并非最新的,上面代码为2015-11-01 版本的 TCGA 数据

方法3:RTCGAToolbox包

#source("https://bioconductor.org/biocLite.R")
#biocLite("RTCGAToolbox")
#加载包
library(RTCGAToolbox)
#哪些癌症数据可以下载
getFirehoseDatasets()
#数据库中更新时间
getFirehoseRunningDates()
getFirehoseAnalyzeDates()
## 下载数据,需要选择癌症种类,数据分析时间,还有数据的种类
brcaData = getFirehoseData (dataset="BRCA", runDate="20160128",
                            forceDownload = TRUE,
                            clinical=TRUE, Mutation=TRUE)
save(brcaData,file='brcaData.RTCGAToolbox.Rdata')
load(file='brcaData.RTCGAToolbox.Rdata')
brcaData

缺点:有时候过大的文件下载不下来,我应用时就出现了要求下载RNAseq时它无法下载,下下来的是临床数据,不明白原因,如果有大佬看到麻烦解答一下

二.一起下载所有的TCGA文件

(小白首推方法!!)

方法一:

这是生信技能树健明老师的已经下载好的TCGA数据库网盘链接,可以直接在里面选择下载,超级福利,超方便!!:https://share.weiyun.com/56URQ3a

方法二:UCSC xena浏览器

已经给你把TCGA数据分类好了,直接点相应的癌症类型,相应数据下载

https://xenabrowser.net/datapages/

优点:简单方便
缺点:如果网速慢,你往往面临网页打不开,下载慢等问题

三.在其TCGA网页上直接下载

输入选择条件,点击加入购物车,然后一起下载。

优点:简介方便,有点类似淘宝购物
缺点:此方法一般用于少量样本的下载,因为不能下载过大的数据,而且点那么多次购物车也很累啊!

四.通过TCGA官方网站提供的GDC下载工具下载

安装一个软件,然后运行后台下载

优点:下载的是实时的最新文件
缺点:步骤比较多,需要更改的方面比较多,电脑小白可能比较难以操作,且中文的系统无法用

五.网页工具下载

方法一:

如果想要数据复现的话推荐:cBioPortal网页工具,内部的数据是根据TCGA发表的paper分类的

方法二:

最后
感谢jimmy的生信技能树团队!
感谢导师岑洪老师!
感谢郭寶平师兄的指点!
感谢健明、孙小洁,慧美等生信技能树团队的老师一路以来的指导和鼓励!

(0)

相关推荐