TCGA数据下载—TCGAbiolinks包参数详解

TCGA是目前使用最多的肿瘤组学数据库,虽然群主已经录制TCGA系列视频教程:

悄咪咪的上线了TCGA知识图谱视频教程(B站和YouTube直达) 里面也提到了各种下载工具,但是作为学徒的我,学习过后也有一些自己的心得,希望大家能喜欢我的教程!

今天我们介绍使用TCGAbiolinks包下载TCGA数据库的数据。TCGAbiolinks包是从TCGA数据库官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。

其实就是broad研究所的firehose命令行工具的R包装!

最近才开始使用TCGAbiolinks这个包从TCGA数据库官网下载数据,发现很多参数不知道去哪里找,所以就查找资料总结了一下。以下载肝脏肝细胞癌(LIHC)count值为例,下载数据最主要的一个函数是GDCquery()。我们在R里运行:

> ?GDCquery

就像学习所有之前没用过的包一样,第一步永远是查看下 help 文档,里面介绍了各个参数,齁长~齁长的,不过没关系,我们一会儿进行一一介绍,也不是哪个都有用。

首先我们看下 help 文档里的Usage部分:

Usage

GDCquery(project, data.category, data.type, workflow.type,
  legacy = FALSE, access, platform, file.type, barcode,
  experimental.strategy, sample.type)

发现GDCquery函数一共有11个参数:

1.project

2.data.category

3.data.type

4.workflow.type

5.legacy = FALSE

6.access

7.platform

8.file.type

9.barcode

10.experimental.strategy

11.sample.type

其次我们看一下 help 文档里的Examples部分:

query <- GDCquery(project = "TCGA-ACC",
                  data.category = "Copy Number Variation",
                  data.type = "Copy Number Segment")

注:GDCquery函数参数详解官网网址:

http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html#useful_information

安装R包

老规矩,使用我们生信技能树的镜像切换大法,保证分分钟安装成功!

rm(list = ls()) 
options()$repos 
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$repos 
options()$BioC_mirror

source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
library("TCGAbiolinks")

介绍各参数

1.project

可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id,总共有45个ID值。

如:将要下载的肝癌项目编号为project="TCGA-LIHC"

> TCGAbiolinks:::getGDCprojects()$project_id
 [1] "TCGA-READ"      "TARGET-CCSK"    "TCGA-MESO"      "TCGA-CHOL"     
 [5] "NCICCR-DLBCL"   "TARGET-WT"      "TCGA-TGCT"      "TCGA-PRAD"     
 [9] "TCGA-LAML"      "TCGA-ESCA"      "TCGA-SARC"      "TCGA-ACC"      
[13] "TCGA-PAAD"      "TCGA-BLCA"      "TCGA-KICH"      "FM-AD"         
[17] "TCGA-LUSC"      "TCGA-THYM"      "TCGA-GBM"       "TCGA-UCEC"     
[21] "TCGA-COAD"      "TCGA-LUAD"      "TARGET-AML"     "TARGET-NBL"    
[25] "TCGA-DLBC"      "TCGA-UVM"       "TCGA-THCA"      "TARGET-OS"     
[29] "TCGA-LGG"       "TCGA-STAD"      "TCGA-LIHC"      "TCGA-CESC"     
[33] "TCGA-HNSC"      "TCGA-KIRC"      "VAREPOP-APOLLO" "TCGA-SKCM"     
[37] "TCGA-BRCA"      "TCGA-OV"        "TCGA-PCPG"      "CTSP-DLBCL1"   
[41] "TCGA-UCS"       "CPTAC-3"        "TCGA-KIRP"      "TARGET-RT"     
[45] "TARGET-ALL-P3" 

2.data.category

可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些数据类型,如查询"TCGA-LIHC"有7种数据类型(就是前面群主视频多次提到的数据类型)case_count为病人数,file_count为对应的文件数。小编要下载表达谱,所以设置data.category="Transcriptome Profiling"

> TCGAbiolinks:::getProjectSummary("TCGA-LIHC")
$`data_categories`
  case_count file_count               data_category
1        376       2122     Transcriptome Profiling
2        376       1537       Copy Number Variation
3        375       3032 Simple Nucleotide Variation
4        377        430             DNA Methylation
5        377        423                    Clinical
6        377       1637            Sequencing Reads
7        377       1634                 Biospecimen

$case_count
[1] 377

$file_count
[1] 10815

$file_size
[1] 1.729756e+13

3.data.type

筛选要下载的文件的数据类型。没有命令可以查看data.type里都有哪些数据类型,但是根据官网连接,如下表图,和所查资料,我们可以总结出常用的data.type都有:

 #下载rna-seq的counts数据
 data.type = "Gene Expression Quantification"
 #下载miRNA数据
 data.type = "miRNA Expression Quantification"
 #下载Copy Number Variation数据
 data.type = "Copy Number Segment"

这里下载表达谱为data.type = "Gene Expression Quantification"

1556293360665.png

4.workflow.type

不同的数据类型,有其对应的参数可供选择。

workflow.type 有三种类型分别为:

  • HTSeq - FPKM-UQ:FPKM上四分位数标准化值

  • HTSeq - FPKM:FPKM值/表达量值

  • HTSeq - Counts:原始count数

小编需要下载count数,所以workflow.type=“HTSeq - Counts”

5.legacy = FALSE

这个参数主要是因为TCGA数据有两个入口可以下载,GDC Legacy ArchiveGDC Data Portal,区别主要是注释参考基因组版本不同分别是:GDC Legacy Archive(hg19GDC Data Portal(hg38)。参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。

1556293412665.png

6.access

数据开放和不开放,有两个参数:controlled, open

我们这里使用:access=“open”

7.platform

这里涉及到的平台种类非常多,可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。

1556293428897.png

8.file.type

主要是在GDC Legacy Archive下载数据的时候使用,可以参考官网说明。这里小编在GDC Data Portal下载数据,所以该参数省略不设置。

9.barcode

A list of barcodes to filter the files to download。可以根据这个参数设置只下载某个样本等。如:

barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01")

10.experimental.strategy

两个下载入口参数选择

  • GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.

  • Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

11.sample.type

A sample type to filter the files to download,可以对样本类型进行过滤下载。这里我要下载所有样本类型数据,不设置。部分值选择如下(全部可以查看官网):如sample.type = "Recurrent Solid Tumor"

1556293447018.png

下面我们开始下载数据:

根据上面的讲解,小编要下载的数据为LIHC,表达谱,count值,因此个参数设置如下:

#先从数据库里找到符合各项参数要求的数据
query <- GDCquery(project = "TCGA-LIHC", 
                 legacy = FALSE, 
                 experimental.strategy = "RNA-Seq", 
                 data.category = "Transcriptome Profiling", 
                 data.type = "Gene Expression Quantification", 
                 workflow.type = "HTSeq - Counts")

#再使用命令GDCdownload()下载
GDCdownload(query)

下载成功后的运行结果

> GDCdownload(query)
Downloading data for project TCGA-LIHC
GDCdownload will download 424 files. A total of 104.380925 MB
Downloading as: Fri_Apr_26_00_38_40_2019.tar.gz
Downloading: 100 MB 

怎么说了,用法其实是熟悉就好,重点是下载数据后可以做什么,这个时候就要看另外一个学徒的表演了:批量COX回归生存分析图,指定挑选lncRNA基因,森林图,ROC曲线打包给你

TCGA教程长期更新列表

文献俱乐部2019笔记分享

生信工程师入门课    全国巡讲约你

五月份,郑州、西安约起

全国巡讲第6、7站-郑州和西安(生信技能树爆款入门课)

(0)

相关推荐

  • 肿瘤miRNA靶点预测数据库

    miRNA作为ncRNA的一类.其主要发挥功能的主要方式是通过和基因形成双向互补链进而来影响基因的表达.因此通过miRNA和基因序列是否互补就可以遇到miRNA可能的靶基因了.这个基本上就是经典的预测 ...

  • TCGAbiolinks数据下载TCGA数据

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事. TCGAbiolinks数据下载TCGA数据 下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks,T ...

  • 手把手教你下载TCGA数据(代码+视频+答疑+服务)

    现在TCGA数据下载的代码满天飞,例如以使用TCGAbiolinks下载为例: if (!requireNamespace("BiocManager", quietly = TRU ...

  • 学习串口参数详解:波特率,数据位,停止位,奇偶校验位

    串口常用参数,串口是一种非常通用的设备通信的协议(不要与通用串行总线Universal Serial Bus(USB)混淆). 中文名:串口常用参数 属    性:通用设备通信的协议 相    关:通 ...

  • 电视选购12个重要参数详解,看完你就是专家,附:爆款推荐

    本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:白云上的鱼 创作立场声明:分享电视选购知识,重要参数详解,轻松搞定电视选购. 目前电视的选择太多太多了,品牌百花齐放琳琅满目,各种高科技加成 ...

  • 佳能g16说明书里的【参数详解】

    导语 :说到佳能g16,相信喜欢相机的朋友应该听说过它吧.它是佳能公司2013年推出的一款中低端数码相机,在上一代数码相机的基础上采用了最新的digic6影像处理系统,使得该型号相机的处理性能大幅度提 ...

  • @Scheduled注解各参数详解

    @Scheduled注解的使用这里不详细说明,直接对8个参数进行讲解. 参数详解 1. cron 该参数接收一个cron表达式,cron表达式是一个字符串,字符串以5或6个空格隔开,分开共6或7个域, ...

  • 如何控制线材的差分转共模参数详解

    随着USB4为代表的主流消费类Cable将带宽拉到40Gbps, 如今想要做好一条合格性能的Cable就越来越难,各种高频参数的设计和制造过程的控制都变得尤为重要,今天我们将目前反馈最多且最不容易通过 ...

  • 8类大数据报告制作全流程详解 | iCourt

    作者:iCourt俊倩 单位:iCourt 微信号:ououruby 编者按 大数据报告是iCourt法秀的王牌专栏,深受校友喜欢,引发了法律界制作大数据报告的热潮.本文作者为该专栏负责人,今年上半年 ...

  • 短线最强实战技术之反包形态详解,非常实用建议收藏!(附图)

    当后一根K线实体包裹前一天的K线实体的K线组合叫做反包,不论是个股还是大盘,出现反包的情况不多,但是如果一旦碰上反包的走势,我们可以用反包辅助我们判断股票的趋势,尤其是股价经历了连续下挫或者连续拉升后 ...

  • (6条消息) OpenCV中的findContours函数参数详解

    OpenCV中的findContours函数参数详解 小白的进阶 2017-07-30 18:02:28 55008 收藏 303分类专栏:OpenCV 文章标签:opencvOpenCV中通过使用f ...

  • 电脑内存条该如何选择?标签的参数详解

    作为电脑中重要的五大硬件之一的内存,它到底该如何选择?看容量?看频率还是看品牌呢?首先我们要知道,内存在电脑中起到什么样的作用,它和硬盘一样都有容量,不同的是硬盘容量可以永久存储,内存条只能够临时存储 ...