生信教程(一)实例展示如何使用TCGA数据库

相对于基础实验来说,生信分析已经越来越融入科研工作者的生活中,作为基础实验的验证和辅助手段,帮许多老师省下了很多工作,许多老师已经很熟练的在使用了生信分析这个当下,此次分享,主要是针对还没有熟练生信分析和初学者的简易教程,废话不多说,小编就直接进入今天的主题:

TCGA 全称为The Cancer GenomeAtlas Program ,即癌症基因图谱计划,是05 年时由美国发起一项用来研究癌症中基因组变化的计划。相较于GEO 数据库,基因数据更加规整,因此更具可信度,用来发文章影响因子也更高。

废话不多说,我们以结肠腺癌为例,来实战一番吧。

TCGA入口:

https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

点击上方链接就可以进入这个页面啦(要用Google 浏览器,或者搜狗浏览器,亲测360 浏览器只能打开TCGA 主页面却没有办法进入数据库的页面。):

我们所需要用到的基因数据要进入Access TCGA Data才能获取到哦,这样我们就顺利进入TCGA的基因组数据共享数据门户。

进入上面这个界面后,就可以正式开始啦。

例如,我们以结肠腺癌为例,有两种方式进入结肠腺癌的数据库。

第一种方法:直接在搜索框中搜索Colon adenocarcinoma ,按下回车键就可以看到下图:

黑色的部分告诉我们这一条数据的数据类型:

TCGA-COAD 就意味着是TCGA 工程里一个项目,项目名是COAD 。

为了更加方便大家查询TCGA数据库,我将TCGA下的所有项目列了出来:

简称

全称

中文

备注

BRCA

breast invasive carcinoma

乳腺浸润癌

PAAD

pancreatic adenocarcinoma

胰腺癌

COAD

colon adenocarcinoma

大肠腺癌

ESCA

esophageal adenocarcinoma

食管腺癌

BLCA

bladder urothelial carcinoma

膀胱尿路上皮癌

STAD

stomach adenocarcinoma

胃腺癌

CHOL

cholangiocarcinoma

胆管癌

CESC

cervical squamous cell carcinoma and endocervical adenocarcinoma

宫颈鳞癌与宫颈腺癌

LUAD

lung adenocarcinoma

肺腺癌

LIHC

liver hepatocellular carcinoma

肝细胞癌

ACC

adrenocortical carcinoma

肾上腺皮质癌

只有01样本

KICH

kidney chromophobe

肾嫌色细胞癌

READ

rectum adenocarcinoma

直肠腺癌

PRAD

prostate adenocarcinoma

前列腺癌

LUSC

lung squamous cell carcinoma

肺鳞癌

GBM

glioblastoma multiforme

多形性胶质母细胞瘤

miRNA数据中只有正常样本

HNSC

head and neck squamous cell carcinoma

头颈部鳞状细胞癌

KIRP

kidney renal papillary cell carcinoma

肾乳头状细胞癌

THCA

thymoma carcinoma

胸腺瘤癌

DLBC

lymphoid neoplasm diffuse large B-cell lymphoma

淋巴肿瘤弥漫性大B细胞淋巴瘤

LGG

brain lower grade glioma

脑低级别胶质瘤

OV

ovarian serous cystadenocarcinoma

卵巢浆液性囊腺癌

UCEC

uterine corpus endometrial carcinoma

子宫体子宫内膜癌

SKCM

skin cutaneous melanoma

皮肤黑色素瘤

KIRC

kidney renal clear cell carcinoma

肾透明细胞癌

THYM

thymoma

胸腺瘤

正常样本只有两个

PCPG

pheochromocytoma and paraganglioma

嗜铬细胞瘤和副神经节瘤

正常样本只有三个

SARC

sarcoma

肉瘤

miRNA数据中没有正常样本

LAML

acute myeloid leukemia

急性髓性白血病

没有正常样本

TGCT

testicular germ cell tumors

睾丸生殖细胞瘤

没有正常样本

MESO

mesothelioma

间皮瘤

没有正常样本

UVM

uveal melanoma

葡萄膜黑色素瘤

没有正常样本

UCS

uterine carcinosarcoma

子宫癌肉瘤

没有正常样本

第二种方法是直接在右侧的图片上选择感兴趣的部位,这种方法多用于不太明确自己想要做的癌症这种情况。

在我们这个例子中,就是选择colorectal 这个部位。

数据的下载,进入了数据库之后,我们就可以开始数据的下载了。

现在网络上很多教程是从网站直接下载,但这种方式不稳定,而且不支持断点续传;还有一些支持断点续传的方法是加入到cart中,且使用cmd下载,这些都非常的麻烦,所以这里要介绍一个TCGA下载神器,TCGAbiolinks这个R包,它的下载方式与网站下载差不多,但是支持断点续传,而且不麻烦。

library(TCGAbiolinks)

library(SummarizedExperiment) # 加载R 包

work_dir <- "D:/colonadenocarcinoma" # 选择工程地点(也就是数据下载的位置)

project <- "TCGA-COAD" # 选择工程

data_category <- "TranomeProfiling" # 类似于在网站上直接进行选择,选择转录数据

data_type <- "Gene ExpressionQuantification" # 选择基因表达谱数据

workflow_type <- "HTSeq -Counts" # 选择counts 数据

legacy <- FALSE # 使用hg38

DataDirectory <-paste0(work_dir,"/GDC/",gsub("-","_",project))

FileNameData <- paste0(DataDirectory,"_","RNAseq_HTSeq_Counts",".rda")

query <- GDCquery(project = project,

data.category =data_category,

data.type = data_type,

workflow.type =workflow_type,

legacy = legacy) # 查询下载的数据情况

# 显示下载数据的总样本量

samplesDown <-getResults(query,cols=c("cases"))

cat("Total sample to download:",length(samplesDown))

# 显示下载数据的肿瘤样本量

dataSmTP <-TCGAquery_SampleTypes(barcode = samplesDown,

typesample ="TP")

cat("Total TP samples to down:",length(dataSmTP))

# 显示下载数据的正常样本量

dataSmNT <-TCGAquery_SampleTypes(barcode = samplesDown,

typesample ="NT")

cat("Total NT samples to down:",length(dataSmNT))

# 下载并整合数据

GDCdownload(query = query,

directory = DataDirectory,files.per.chunk=6,

method='client')

data <- GDCprepare(query = query,

save = TRUE,

directory = DataDirectory,

save.filename =FileNameData)

data_expr <- assay(data)

dim(data_expr)

gene_expr_file <- paste0(DataDirectory,

"_",

"Gene_HTSeq_Counts",

".txt")

write.csv(data_expr,file ='raw_mRNAdata.csv')

最终数据就是可以直接进行数据分析的数据

(0)

相关推荐