TCGA、ICGC、GTEx 数据库都是啥?

我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比较多,所以这里也就做一下简单的介绍。
需要明确的是,这几个数据库属于原始数据储存数据库。我们在这里得到的都是相对原始的数据库,需要具备一定的数据分析能力。

TCGA

TCGA, 全称为The Cancer Genome Atlas(癌症基因组图谱)。通过其名称我们就知道这个数据库主要做的就是肿瘤相关的数据库。为什么经常看到别人用这个数据库呢?还是因为这个数据库收集的信息全呀。

首先,对于研究病种而言,这个数据库包括了33个种肿瘤的数据。具体包括的癌种可以看后面的链接。

其次,数据库检测的数据类型多。对于同一个癌种,我们可以获得这个癌种的: 表达数据、miRNA表达数据、甲基化数据、突变数据和拷贝数数据。如果我们使用GEO数据库检索某一个癌种,同样也可以得到这些相关的数据。但是TCGA数据库珍贵的地方是,这个数据都是出自同一个人的。这样的话,我们就可以研究不同组学之间的交叉反应了。比如突变对于表达的影响、甲基化和表达的关系等等。。。

另外,TCGA除了包括了不同测序的数据,同时对于每一个纳入的患者还包括了其临床的信息。更难能可贵的是,临床信息当中还包括了预后随访的信息。这个我们就可以来分析以上的测序数据集和临床信息之间的关系了,比如分析基因表达和预后的关系等等。。。

PS: 其实GEO有的数据集也有临床信息以及预后信息,但是这个得需要我们慢慢的去寻找了。

ICGC

ICGC (https://dcc.icgc.org/), 全称International Cancer Genome Consortium(国际癌症基因组联盟)。这个数据库和TCGA的关系,就是ICGC数据库包括了TCGA的数据。另外呢,ICGC也纳入了其他别的地区所做的队列的测序数据。所以如果使用ICGC进行检索的话,我们可以得到更多的数据。

ICGC是一个储存原始数据的地方,我们只需要检索相对应的关键词就可以得到具体的信息了。我们可以检索疾病、基因名称或者突变信息都可以。例如我们检索 gastric cancer,我们就可以得到这个联盟纳入的数据集。

我们点击进去就可以看到每个数据集详细的信息。按照下图所示,我们点开的这个就只有突变的数据。

GTEx

GTEx,全称Genotype-Tissue Expression。这个数据库和TCGA和ICGC不同的是。TCGA和ICGC更多的还是肿瘤相关的数据,而GTEx收集的是正常人身上的组织来进行的测序,所以GTEx数据库包括的就只是正常人的数据

这个数据集的用处呢,一方面是可以研究正常人不同组织之间的基因表达的区别。另外的一个呢,就是和TCGA联合使用。由于TCGA重点收集的还是癌症组织的数据,对于其正常的数据收集的相对来说较少,由于正常样本少所以对于差异表达的结果可能就不是很准确。这个时候如果我们把GTEx的数据纳入进来。这样分析的结果就会准确一些了。

数据下载站点推荐

以上就是三个数据库内容的基本介绍,如果想要想在相关的数据的话,各个数据库都提供了自己的下载方式。另外,很多别的机构也都提供了这个数据的下载链接,这个还是很推荐使用UCSC XENA (https://xenabrowser.net/hub/)。这里汇总和目前常用的很多公共数据库的原始数据,甚至包括今年刚发表的PCAWG的数据。

看完如果觉得有所收获,点个“在看”再走哦~让大家共同学习~

(0)

相关推荐

  • 单基因泛癌表达(TCGA+GTEx)

    之前我们发布了单基因泛癌分析相关的文章,包括 TCGA单基因免疫相关泛癌分析 TCGA单基因免疫相关泛癌分析-进阶版本 TCGA单基因泛癌分析:富集分析结果答疑 这里有单基因在每种肿瘤中的表达图,仅限 ...

  • 2600多个基因组!Nature发布迄今最全癌症基因图谱,有望提前数十年识别出肿瘤突变

    癌症是一种基因病,由体细胞癌基因突变引起.早在2001年对首个人类基因组进行测序后,肿瘤的全面基因组表征就成为癌症研究人员的一个主要目标.从那时起,测序技术和分析工具取得的进展使得这个研究领域蓬勃发展 ...

  • ICGC是什么鬼?

    很多人都听说过GEO数据挖掘,TCGA数据挖掘,但是对于ICGC可能会感到陌生.可能有人会问ICGC是什么鬼呢? The ICGC(International Cancer Genome Consor ...

  • 点进来,免费帮你做单基因泛癌表达分析(TCGA+GETx)

    相信绝大多数研究肿瘤的科研工作者的工作都离不开某个特定的基因,现在绝大部分的单基因的生信文章也都有这么一个图,我就随便列举一些文章的Figure1 比如 再比如 再比如 再比如 再比如 再比如 再比如 ...

  • 生信工具 | TCGA数据分析工具GEPIA最新更新,用于免疫细胞浸润分析

    GEPIA(http://gepia.cancer-pku.cn/index.html)这个工具可以说是分析TCGA数据库数据分析工具中比较简单好用的工具了,包括生存分析,表达差异分析,相关性分析等, ...

  • 不研究肿瘤,就用不了TCGA的测序数据库,那要用啥……

    要分析测序数据,一般都会想到的是TCGA (当然GEO上也有部分的测序数据).但TCGA上只有肿瘤的相关研究,我们如想要研究其他疾病,甚至研究其他物种的测序数据, 其实可以看点别的,比如上EMBL-E ...

  • 一个基因引发的血案

    大家好,我是老米,学习生信一个月,这是我的第二篇Markdown.不知道多少人还记得我的第一个作品:原来一个星期真的可以零基础入门TCGA数据挖掘,甚至markdown写作公众号投稿 (感兴趣的自己点 ...

  • 人类研究有GTEx数据库那么大鼠和小鼠研究呢

    GTEx数据库想必大家并不陌生了,通常我们在挖掘TCGA数据库的时候,会发现该项目纳入的正常组织测序结果是非常少的,也就是说很多病人都不会有他的正常组织的转录组测序结果. 比如说乳腺癌吧,1200个左 ...

  • 数据库数据 | TCGA数据库33种癌症的 transcriptome profiling (RNA-Seq) 数据

    该数据是我自己下载整理过的数据. 下载日期:2021年7月12日 下载方式:TCGAbiolinks包 数据类型:RData 变量名称:expDataTPM > ##加载数据,数据对象是一个数据 ...

  • TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手

    长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...

  • 中国自研科技又添佳绩!国外数据库都懵了!...

    中国自研科技又添佳绩!国外数据库都懵了! 最近,国产数据库传来好消息.第十五届2020年中国电子学会科学技术奖评选结果公布,阿里云自研的"云原生分布式关系型数据库PolarDB"项 ...

  • TCGA蛋白分析数据库

    功能蛋白质组学是对蛋白质在功能活性水平(例如表达和修饰)的大规模研究.对诸如癌症等复杂疾病的研究表明,遗传改变并不能说明该疾病的所有原因.蛋白质水平和结构的变化也已显示在肿瘤发展和进展中起关键作用,而 ...

  • TCGA线粒体图谱数据库及线粒体基因集介绍

    今天主要介绍两个和线粒体有关的数据库,其中一个是基于TCGA数据库构建的The Cancer Mitochondrial Atlas.另外一个是收录了和线粒体有关的基因集的数据库:MITOCARTA3 ...

  • 使用gtex数据库找组织特异性表达基因

    组织特异性表达基因在单细胞领域应用比较广泛,毕竟一下子好几千个细胞的表达量矩阵就出来了,通过降维聚类,可以拿到不同的亚群,就需要对这些亚群进行生物学注释,这个时候,如果我们有人类的每个组织的特异性表达 ...

  • tcga等公共数据库查询你的基因没有统计学显著的预后作用你就放弃了吗

    看到了发表于2021年4月在NC期刊的文章,标题是:<DUSP16 promotes cancer chemoresistance through regulation of mitochond ...

  • TCGA甲基化分析数据库

    TCGA数据库是一个包括33种癌的各个组学的数据库.我们通过TCGA数据库可以观察每个人的基因表达的变化:甲基化的变化:拷贝数的变化:以及他们的临床信息.MEXPRESS(https://mexpre ...

  • 可能是最出名的TCGA表达分析数据库(二)

    有小伙伴说想知道GEPIA数据库的用法.正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能.所以就趁着这个机会给大家介绍一下GEPIA2吧.昨天我们介绍了其中一部分,这里我们来说一下后面的一 ...