生信教程(一)实例展示如何使用TCGA数据库
相对于基础实验来说,生信分析已经越来越融入科研工作者的生活中,作为基础实验的验证和辅助手段,帮许多老师省下了很多工作,许多老师已经很熟练的在使用了生信分析这个当下,此次分享,主要是针对还没有熟练生信分析和初学者的简易教程,废话不多说,小编就直接进入今天的主题:
TCGA 全称为The Cancer GenomeAtlas Program ,即癌症基因图谱计划,是05 年时由美国发起一项用来研究癌症中基因组变化的计划。相较于GEO 数据库,基因数据更加规整,因此更具可信度,用来发文章影响因子也更高。
废话不多说,我们以结肠腺癌为例,来实战一番吧。
TCGA入口:
https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
点击上方链接就可以进入这个页面啦(要用Google 浏览器,或者搜狗浏览器,亲测360 浏览器只能打开TCGA 主页面却没有办法进入数据库的页面。):
我们所需要用到的基因数据要进入Access TCGA Data才能获取到哦,这样我们就顺利进入TCGA的基因组数据共享数据门户。
进入上面这个界面后,就可以正式开始啦。
例如,我们以结肠腺癌为例,有两种方式进入结肠腺癌的数据库。
第一种方法:直接在搜索框中搜索Colon adenocarcinoma ,按下回车键就可以看到下图:
黑色的部分告诉我们这一条数据的数据类型:
TCGA-COAD 就意味着是TCGA 工程里一个项目,项目名是COAD 。
为了更加方便大家查询TCGA数据库,我将TCGA下的所有项目列了出来:
简称 |
全称 |
中文 |
备注 |
BRCA |
breast invasive carcinoma |
乳腺浸润癌 |
|
PAAD |
pancreatic adenocarcinoma |
胰腺癌 |
|
COAD |
colon adenocarcinoma |
大肠腺癌 |
|
ESCA |
esophageal adenocarcinoma |
食管腺癌 |
|
BLCA |
bladder urothelial carcinoma |
膀胱尿路上皮癌 |
|
STAD |
stomach adenocarcinoma |
胃腺癌 |
|
CHOL |
cholangiocarcinoma |
胆管癌 |
|
CESC |
cervical squamous cell carcinoma and endocervical adenocarcinoma |
宫颈鳞癌与宫颈腺癌 |
|
LUAD |
lung adenocarcinoma |
肺腺癌 |
|
LIHC |
liver hepatocellular carcinoma |
肝细胞癌 |
|
ACC |
adrenocortical carcinoma |
肾上腺皮质癌 |
只有01样本 |
KICH |
kidney chromophobe |
肾嫌色细胞癌 |
|
READ |
rectum adenocarcinoma |
直肠腺癌 |
|
PRAD |
prostate adenocarcinoma |
前列腺癌 |
|
LUSC |
lung squamous cell carcinoma |
肺鳞癌 |
|
GBM |
glioblastoma multiforme |
多形性胶质母细胞瘤 |
miRNA数据中只有正常样本 |
HNSC |
head and neck squamous cell carcinoma |
头颈部鳞状细胞癌 |
|
KIRP |
kidney renal papillary cell carcinoma |
肾乳头状细胞癌 |
|
THCA |
thymoma carcinoma |
胸腺瘤癌 |
|
DLBC |
lymphoid neoplasm diffuse large B-cell lymphoma |
淋巴肿瘤弥漫性大B细胞淋巴瘤 |
|
LGG |
brain lower grade glioma |
脑低级别胶质瘤 |
|
OV |
ovarian serous cystadenocarcinoma |
卵巢浆液性囊腺癌 |
|
UCEC |
uterine corpus endometrial carcinoma |
子宫体子宫内膜癌 |
|
SKCM |
skin cutaneous melanoma |
皮肤黑色素瘤 |
|
KIRC |
kidney renal clear cell carcinoma |
肾透明细胞癌 |
|
THYM |
thymoma |
胸腺瘤 |
正常样本只有两个 |
PCPG |
pheochromocytoma and paraganglioma |
嗜铬细胞瘤和副神经节瘤 |
正常样本只有三个 |
SARC |
sarcoma |
肉瘤 |
miRNA数据中没有正常样本 |
LAML |
acute myeloid leukemia |
急性髓性白血病 |
没有正常样本 |
TGCT |
testicular germ cell tumors |
睾丸生殖细胞瘤 |
没有正常样本 |
MESO |
mesothelioma |
间皮瘤 |
没有正常样本 |
UVM |
uveal melanoma |
葡萄膜黑色素瘤 |
没有正常样本 |
UCS |
uterine carcinosarcoma |
子宫癌肉瘤 |
没有正常样本 |
第二种方法是直接在右侧的图片上选择感兴趣的部位,这种方法多用于不太明确自己想要做的癌症这种情况。
在我们这个例子中,就是选择colorectal 这个部位。
数据的下载,进入了数据库之后,我们就可以开始数据的下载了。
现在网络上很多教程是从网站直接下载,但这种方式不稳定,而且不支持断点续传;还有一些支持断点续传的方法是加入到cart中,且使用cmd下载,这些都非常的麻烦,所以这里要介绍一个TCGA下载神器,TCGAbiolinks这个R包,它的下载方式与网站下载差不多,但是支持断点续传,而且不麻烦。
library(TCGAbiolinks)
library(SummarizedExperiment) # 加载R 包
work_dir <- "D:/colonadenocarcinoma" # 选择工程地点(也就是数据下载的位置)
project <- "TCGA-COAD" # 选择工程
data_category <- "TranomeProfiling" # 类似于在网站上直接进行选择,选择转录数据
data_type <- "Gene ExpressionQuantification" # 选择基因表达谱数据
workflow_type <- "HTSeq -Counts" # 选择counts 数据
legacy <- FALSE # 使用hg38
DataDirectory <-paste0(work_dir,"/GDC/",gsub("-","_",project))
FileNameData <- paste0(DataDirectory,"_","RNAseq_HTSeq_Counts",".rda")
query <- GDCquery(project = project,
data.category =data_category,
data.type = data_type,
workflow.type =workflow_type,
legacy = legacy) # 查询下载的数据情况
# 显示下载数据的总样本量
samplesDown <-getResults(query,cols=c("cases"))
cat("Total sample to download:",length(samplesDown))
# 显示下载数据的肿瘤样本量
dataSmTP <-TCGAquery_SampleTypes(barcode = samplesDown,
typesample ="TP")
cat("Total TP samples to down:",length(dataSmTP))
# 显示下载数据的正常样本量
dataSmNT <-TCGAquery_SampleTypes(barcode = samplesDown,
typesample ="NT")
cat("Total NT samples to down:",length(dataSmNT))
# 下载并整合数据
GDCdownload(query = query,
directory = DataDirectory,files.per.chunk=6,
method='client')
data <- GDCprepare(query = query,
save = TRUE,
directory = DataDirectory,
save.filename =FileNameData)
data_expr <- assay(data)
dim(data_expr)
gene_expr_file <- paste0(DataDirectory,
"_",
"Gene_HTSeq_Counts",
".txt")
write.csv(data_expr,file ='raw_mRNAdata.csv')
最终数据就是可以直接进行数据分析的数据