TCGA数据库下载:多种方法及优缺点介绍
早就告诉圈内好友,我把自己的28篇TCGA教程的部分知识点录制成为了视频,虽然播放量很少,但是看过的朋友都说收获很大,而且还有专门的笔记系统性介绍自己学习的收获,今天我们就分享其中一位优秀学员的笔记:
在TCGA数据库下载文件有很多种方法:
一.利用R语言下载
(本文重点介绍这个)
R语言有很多不同的包可以用于下载TCGA文件(意思就是不同的代码实现下载TCGA数据的同一目的)
方法1:TCGAbiolinks包
(首推这个方法!!目前没发现明显缺点) TCGA数据下载—TCGAbiolinks包参数详解TCGA数据下载—TCGAbiolinks包参数详解
library(TCGAbiolinks)#加载包
query <- GDCquery(project = "TCGA-DLBC", #选定要下载的肿瘤类型
data.category = "Transcriptome Profiling",#选定要下载的数据范畴
data.type = "Gene Expression Quantification",#选定要下载的数据类型
workflow.type = "HTSeq - Counts"#选定要下载RNAseq的-COUNT文件
)#这个过程和官网的筛选是差不多的,和下图的筛选是实现的同样的目的imageGDCdownload(query, method = "api", files.per.chunk = 100)
expdat <- GDCprepare(query = query)
library(SummarizedExperiment)
count_matrix=assay(expdat)
write.csv(count_matrix,file = paste("TCGA-DLBC","Counts.csv",sep = "-"))
#下载,并把文件保存
方法2:RTCGAT包
source("https://bioconductor.org/biocLite.R")
biocLite("RTCGA")
# Install the clinical and mRNA gene expression data packages
biocLite("RTCGA.clinical") ## 14Mb
biocLite('RTCGA.rnaseq') ## (612.6 MB)
biocLite("RTCGA.mRNA") ## (85.0 MB)
biocLite('RTCGA.mutations') ## (103.8 MB)
##加载包,这些包里面存的是相应的数据
library(RTCGA)
all_TCGA_cancers=infoTCGA()
library(RTCGA.clinical)
library(RTCGA.mRNA)
## 从下载的数据包中提取我们需要的文件,需要选择癌症种类,还有数据的种类等,基因种类等
library(RTCGA)
library(RTCGA.mRNA)
expr <- expressionsTCGA(BRCA.mRNA, OV.mRNA, LUSC.mRNA,
extract.cols = c("GATA3", "PTEN", "XBP1","ESR1", "MUC1"))
缺点:它是先下载所有已经存储的数据,然后从里面挑选你要的,缺点一是下载所有数据是因为文件太大会很慢,缺点二是数据并非最新的,上面代码为2015-11-01 版本的 TCGA 数据
方法3:RTCGAToolbox包
#source("https://bioconductor.org/biocLite.R")
#biocLite("RTCGAToolbox")
#加载包
library(RTCGAToolbox)
#哪些癌症数据可以下载
getFirehoseDatasets()
#数据库中更新时间
getFirehoseRunningDates()
getFirehoseAnalyzeDates()
## 下载数据,需要选择癌症种类,数据分析时间,还有数据的种类
brcaData = getFirehoseData (dataset="BRCA", runDate="20160128",
forceDownload = TRUE,
clinical=TRUE, Mutation=TRUE)
save(brcaData,file='brcaData.RTCGAToolbox.Rdata')
load(file='brcaData.RTCGAToolbox.Rdata')
brcaData
缺点:有时候过大的文件下载不下来,我应用时就出现了要求下载RNAseq时它无法下载,下下来的是临床数据,不明白原因,如果有大佬看到麻烦解答一下
二.一起下载所有的TCGA文件
(小白首推方法!!)
方法一:
这是生信技能树健明老师的已经下载好的TCGA数据库网盘链接,可以直接在里面选择下载,超级福利,超方便!!:https://share.weiyun.com/56URQ3a
方法二:UCSC xena浏览器
已经给你把TCGA数据分类好了,直接点相应的癌症类型,相应数据下载
https://xenabrowser.net/datapages/
优点:简单方便
缺点:如果网速慢,你往往面临网页打不开,下载慢等问题
三.在其TCGA网页上直接下载
输入选择条件,点击加入购物车,然后一起下载。
优点:简介方便,有点类似淘宝购物
缺点:此方法一般用于少量样本的下载,因为不能下载过大的数据,而且点那么多次购物车也很累啊!
四.通过TCGA官方网站提供的GDC下载工具下载
安装一个软件,然后运行后台下载
优点:下载的是实时的最新文件
缺点:步骤比较多,需要更改的方面比较多,电脑小白可能比较难以操作,且中文的系统无法用
五.网页工具下载
方法一:
如果想要数据复现的话推荐:cBioPortal网页工具,内部的数据是根据TCGA发表的paper分类的
方法二:
最后
感谢jimmy的生信技能树团队!
感谢导师岑洪老师!
感谢郭寶平师兄的指点!
感谢健明、孙小洁,慧美等生信技能树团队的老师一路以来的指导和鼓励!