超2万样本的RNA-seq数据重新统一处理（TCGA+GTEx+ TARGET）

2024-06-19 20:39:49

各种大型计划产出的RNA-seq数据资源已经非常丰富了，但是大家都想把多个数据库联合起来分析，就不得不面对批次效应这个问题，所以UCSC团队就使用统一的流程把这些数据重新处理了，在亚马逊云上，一个样本花费1.3美元。

发表在：Nature Biotechnology publication: https://doi.org/10.1038/nbt.3772

3大数据库是：

The Cancer Genome Atlas (TCGA)
Genotype-Tissue Expression (GTEx)
Therapeutically Applicable Research To Generate Effective Treatments (TARGET)

而且还提供网页工具供查询使用：

Differential gene and isoform expression of FOXM1 transcription factor in TCGA vs. GTEx

使用的数据处理流程

如下图： CutAdapt was used for adapter trimming, STAR was used for alignment, and RSEM and Kallisto were used as quantifiers.

流程介绍

如果你对RNA-seq数据处理流程有意外，直接去看我长达74个小时全套生物信息学入门视频：生信技能树视频课程学习路径，这么好的视频还免费！

参考基因组选择

STAR, RSEM, and Kallisto indexes were all built with the same reference genome. HG38 (no alt analysis) with overlapping genes from the PAR locus removed (chrY:10,000-2,781,479 and chrY:56,887,902-57,217,415).
ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/seqs_for_alignment_pipelines

注释文件的选择

RSEM: Gencode V23 comprehensive annotation (CHR)
http://www.gencodegenes.org/releases/23.html first row
Kallisto: Gencode V23 comprehensive annotation (ALL)
http://www.gencodegenes.org/releases/23.html second row

软件参数的选择

STAR
sudo docker run -v $(pwd):/data quay.io/ucsc_cgl/star --runThreadN 32 --runMode genomeGenerate --genomeDir /data/genomeDir --genomeFastaFiles hg38.fa --sjdbGTFfile gencode.v23.annotation.gtf
Kallisto
sudo docker run -v $(pwd):/data quay.io/ucsc_cgl/kallisto index -i hg38.gencodeV23.transcripts.idx transcriptome_hg38_gencodev23.fasta
Kallisto index that was used during the recompute is available here.
RSEM
sudo docker run -v $(pwd):/data --entrypoint=rsem-prepare-reference jvivian/rsem -p 4 --gtf gencode.v23.annotation.gtf hg38.fa hg38

可以看到，上面的3大要素，就是我五年前在生信菜鸟团博客写教程的基本规律。

Raw data

Nature Publication Supplementary Note 7 – Data Availability

Submitter sample ID to Xena sample ID mapping

TCGA mapping

GTEx mapping

TARGET mapping

最后公布的可供下载的数据集

GTEX (11 datasets)
TARGET Pan-Cancer (PANCAN) (12 datasets)
TCGA and TARGET Pan-Cancer (PANCAN) (4 datasets)
TCGA Pan-Cancer (PANCAN) (10 datasets)
TCGA TARGET GTEx (13 datasets)

其中TCGA TARGET GTEx 3大数据库) (共有 13 datasets)

cohort: TCGA TARGET GTEx

表达矩阵样本量很可观

RSEM expected_count

(n=19,109)

UCSC Toil RNAseq Recompute
RSEM expected_count (DESeq2 standardized)

(n=19,039)

UCSC Toil RNAseq Recompute

RSEM expected_count output normalized using DESeq2
RSEM fpkm

(n=19,131)

UCSC Toil RNAseq Recompute
RSEM norm_count

(n=19,120)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx gene expression by UCSC TOIL RNA-seq recompute
RSEM tpm

(n=19,131)

UCSC Toil RNAseq Recompute

phenotype

TCGA GTEX main categories

(n=17,221)

UCSC Toil RNAseq Recompute
TCGA survival data

(n=10,496)

UCSC Toil RNAseq Recompute
TCGA TARGET GTEX selected phenotypes

(n=19,131)

UCSC Toil RNAseq Recompute

somatic mutation (SNP and INDEL)

TCGA somatic mutations (Pan-cancer Atlas MC3 public version)

(n=8,463)

UCSC Toil RNAseq Recompute

transcript expression RNAseq

RSEM expected_count

(n=19,109)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute
RSEM fpkm

(n=19,129)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute
RSEM isoform percentage

(n=19,131)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute
RSEM tpm

(n=19,131)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute

单基因泛癌表达（TCGA+GTEx）

之前我们发布了单基因泛癌分析相关的文章,包括 TCGA单基因免疫相关泛癌分析 TCGA单基因免疫相关泛癌分析-进阶版本 TCGA单基因泛癌分析:富集分析结果答疑这里有单基因在每种肿瘤中的表达图,仅限 ...
点进来，免费帮你做单基因泛癌表达分析（TCGA+GETx）

相信绝大多数研究肿瘤的科研工作者的工作都离不开某个特定的基因,现在绝大部分的单基因的生信文章也都有这么一个图,我就随便列举一些文章的Figure1 比如再比如再比如再比如再比如再比如再比如 ...
TCGA、ICGC、GTEx 数据库都是啥？

我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比 ...
数据库数据 | TCGA数据库33种癌症的 transcriptome profiling (RNA-Seq) 数据

该数据是我自己下载整理过的数据. 下载日期:2021年7月12日下载方式:TCGAbiolinks包数据类型:RData 变量名称:expDataTPM > ##加载数据,数据对象是一个数据 ...
这是你要的5+单细胞挖掘思路吗？

导语今天和大家分享的是今年7月份发表在Cancer Immunology, Immunotherapy 杂志(IF=5.442)上的一篇文章,"Integrated analysis of ...
可变剪切新模式：外显子内含子剪切

关于可变剪切,简单而言就是,一个基因从DNA-mRNA的过程当中,由于剪切位点的不同,会形成不同的mRNA剪切变异体.对于可变剪切模式,之前的介绍TCGA SpliceSeq数据库的时候提到了数据库当 ...
超44万样本揭示：97%人群有癌症高遗传风险，健康生活方式可有效降低癌症发病率！

来源:生物探索 2021-08-16 12:41 癌症,全世界的人民公敌,发病原因复杂,经常被看作是遗传因素和生活环境因素之间相互作用的结果.2016年,一项北欧双胞胎研究报告(Nordic Twin ...
超44万样本研究揭示：97%人群有癌症高遗传风险，健康生活方式可有效降低癌症发病率！

癌症,全世界人民的公敌,发病原因复杂,经常被看作是遗传因素和生活环境因素之间相互作用的结果.2016年,一项长达32年.涵盖20万对双胞胎的北欧双胞胎研究报告(Nordic Twin's Study) ...
少年们，快放下手里的含糖饮料！超3万人的研究数据发现，13-18岁间每天果糖摄入增加5%，与成年后结...

近几年含糖茶饮非常受年轻人追捧,可以说火得一塌糊涂. 与此同时,有关糖或含糖饮料对健康影响的研究也热起来了. 这不,研究人员近期又发现了青春期含糖饮料摄入量与结直肠腺瘤发病风险的关联,所以我们又双叒叕 ...
分析全球超200万人的健康数据：一天2份水果 3份蔬菜，是延寿的最佳组合！

水果和蔬菜是维生素.矿物质.膳食纤维和植物化合物的重要来源,对维持人体健康.保持肠道正常功能以及降低心血管疾病.癌症和糖尿病等慢性病的风险具有重要作用. 因此,多吃水果和蔬菜有益健康.但是,多吃多少算 ...
没想到！吃辣或可降低癌症风险！平均随访10年、超50万中国人大数据证实吃辣好处

*仅供医学专业人士阅读参考吃辣的好处,你知道多少? 首先,在开篇我们来做个小调研,你平时会吃辣吗?每周会有几天吃辣呢? 说起辣椒,可以说是很多人的下饭菜.与其他的感觉相比,辣椒带来的辛辣刺激往往会让 ...
超52万人研究数据揭示：每天都在摄入的食用油，怎么吃才更健康？

无论是炒菜烹饪,还是蛋糕零食,我们的日常餐食都已经离不开食用油.随着动物脂肪.植物油及人造奶油等在我国乃至全球消费量的剧增,越来越多的人开始关注,每日摄入食用油量对健康造成的影响,以及食用油摄入是否会 ...
每天吃2顿外卖，癌症死亡风险升高67%！近8年、超3万5千人数据揭开真相

*仅供医学专业人士阅读参考家里饭或许更健康. 外出就餐,在中国有个更通俗的说法,那就是下馆子,而对于没有时间的人来说,吃外卖就是个更便捷的方式.那么一日三餐,你在家吃饭的次数是多少呢? 但是让你想不 ...
当心！超52万人大数据证明，不正确吃“油”会加大癌症死亡风险！

作为生活必需品的食用油,常常出现在炒菜.煎炸.炖煮等日常餐食烹饪中,饭菜香不香,首先是油用得对不对. 但是,过"油"不及,过量摄入或不正确食用油,会对癌症患者的身体造成不小的危害, ...
BMJ：一人有肠息肉，直系亲属患肠癌风险至少增加43%！超40万人数据表明，肠息肉家族史对肠癌有重要...

我们又来劝大家做肠癌筛查了. 虽然咱们国家最新临床指南推荐无结直肠癌(CRC)家族史的一般风险人群从40岁开始接受CRC筛查:并建议有CRC家族史的高危人群起始筛查年龄应当比一级亲属(父母或亲兄弟姐妹 ...