转录调控必知数据库:ENCODE

之前我们在介绍很多转录调控相关的数据库的时候,都会提到这些数据库包含了ENCODE数据库。那么ENCODE数据库是什么样的数据库呢?

ENCODE

(Encyclopedia of DNA Elements, https://www.encodeproject.org/),翻译成中文就是DNA元素百科全书,其主要目的是为了了解这个基因组当中的调控反应,主要方法还是利用高通量的测序技术来进行分析的。

按照上图的展示,目前的ENCODE通过多种测序数据来反应基因组变化的过程,分别是通过

  • Hi-C 来观察三维基因组

  • ATAC-seq/chip-seq 研究基因的转录调控

  • 甲基化芯片来研究甲基化的调控作用

  • RNA-seq 来研究基因表达的变化

  • RIP-seq 研究在转录后调控的信息

我们可以通过ENCODE数据库来检索自己想要的数据。类似很多转录调控数据库也是在ENCODE数据库获得目标原始数据后,进行分析后构建的自己数据库。

数据统计

目前ENCODE数据不止是包括人的数据,现在包含了四种物种的数据,主要含有: 人、老鼠、蠕虫、苍蝇这四个物种。

我们可以点击相关的数据类型,就可以得到ENCODE数据的这个类型的所有数据了。例如我们点击: DNA binding即可看到数据库的所有数据。

数据检索

同样的,我们可以基于自己的目的来检索想要的数据。

这里我们检索: CTCF。就可以看到和CTCF相关的数据集了。其中前四个是不同物种chip-seq的数据。

我们可以选择 CTCF(Homo sapiens),就可以看到具体的在人的物种当中所有和CTCF有关的数据集了。这里会显示不同的组织的数据,我们可以选择想要查看的组织类型进行查看。

具体数据集介绍

对于不同的检索方式,我们都能到具体数据集内容介绍里面。对于数据介绍基本格式基因相同,这里我们就用:ENCSR331OGX这个CTCF相关的chip-seq数据来简单介绍一下。

  1. 数据汇总信息。这里我们能看到数据集基本信息,包括患者基本信息。对于ENCODE的数据,都会放到GEO里面,所以我们在GEO里面其实也是可以检索到ENCODE的数据的。

  1. 具体的数据文件。这里我们可以看到数据的所有原始数据,包括测序数据的fastq数据以及基于ENCODE分析流程分析的所有bam文件和peak文件。

对于数据的peak文件,可以通过基因浏览器来进行查看。我们之前介绍过一个好看的基因浏览器。ENCODE默认的是UCSC的基因浏览器,可以点击 Visualize来进行查看。

  1. 数据处理流程:ENCODE提供了关于数据的标准处理流程,如果要使用他们的数据结果的时候,可以知道是怎么处理的;同时如果我们有自己的数据的话,不知道怎么处理,也可以参考这个数据处理流程的。

数据库总结

关于ENCODE基本介绍就是这些的。这个数据库主要还是一个偏向于原始数据储存的数据库。我们如果需要进行原始数据分析的话,可以从这个下载数据。但是如果是想要直接检索转录调控的结果的话,可以使用一些基于ENCODE数据分析完的数据库例如:我们之前介绍的Chea3[数据库推荐]多基因转录因子调控网络预测或者Cistrome等只要提到ENCODE数据的这些转录因子调控数据库。

建议还是如果要进行课题设计,可以使用那些对ENCODE加工的数据库好一些,这样只需要检索就可以获得结果。如果想要自定义的分析,那还是下载原始数据好一些,不过这个对于分析能力的要求就要高一些了。

(0)

相关推荐

  • 从基因组学解码生命:细胞、组织、器官

    全球医生组织 原创 时占祥 全球医生组织 来自专辑美国NIH与国家癌症中心系列讲座 这次新冠疫情成为了最好的生物医学科普宣教.无论男女老少,受教育多少.层次高低,都弄明白了什么是病毒:现在又聚精会神地 ...

  • 历时17年ENCODE计划三期完工,近百万人类基因组调控元件被发现,单细胞时空组学或将登场

    2000年,人类基因组序列草图绘制完成: 2003年,DNA百科全书计划(ENCODE)启动,一项破译人类基因组功能调控机制的全球合作项目正式开工:2007年,ENCODE计划一期成果发布:2012年 ...

  • 最强攻略5:史上最全转录调控数据库汇总解读

    一.转录因子介绍 转录因子(Transcription factors)是一群能与基因特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子.转录因子通过识别特定的DNA序 ...

  • 怎么样查找正常组织的基因表达谱数据?

    大家可以收藏一下. 数据库介绍 RNA-Seq Atlas - 通过下一代测序在正常组织中进行基因表达谱分析的参考数据库 RNA-Seq Atlas是一个基于网络的RNA-Seq基因表达谱和查询工具库 ...

  • circRNA必知数据库

    对于某一类领域的研究而言,总有一些经典的数据库是在开始研究这个领域之前就需要知道的一些数据库.如果要研究circRNA的话,那对于circBase(http://www.circbase.org/)这 ...

  • 数据库必知必会

    咦,你说的数据库到底是啥呀? 常用的NCBI.UCSC,ENSEMBL, DDBJ.EBI数据库,然后就是其他实验室构建发表的特殊生物数据库,就是把实验室特有的和收集部分公共数据库里的数据进行挖掘整理 ...

  • lncRNA必知必会的数据库资源大全

    最近有粉丝来信表示我的免费视频课程<LncRNA-seq数据>非常的"简陋",就是在用一个lncRNA芯片和一个lncRNA测序的数据来演示如何获得表达矩阵,以及后续的 ...

  • 集合多种功能的转录调控数据库

    我们知道基因在表达的过程当中,收到很多因素的调控.其中转录因子对于基因的调控就是其中的一种方式.目前对于转录调控的研究,在高通量测序方面主要还是通过类似chip-seq这类的方式来进行研究.对于转录调 ...

  • 运维必知必备!73页计算机基础知识,新手小白也能轻松读懂

    基础不牢,地动山摇! 新手在学习运维亦或是开发的时候,都要注重基础知识的积累,不能只想着学习实战知识,这样到中后期,容易造成对"高级知识点"的一知半解,以至于知其然,却不知其所以然 ...

  • 管理者必知的4种核心领导力

    为什么有些领导者成功,而另一些领导者却失败? 事实上没有使领导者成功特征的"魔方组合",不同的特征在不同的情况下很重要.但是,这并不意味着你不能学会成为有效的领导者.你只需要了解领 ...

  • 领导座次安排(2021年版),高管必知!

    会议.活动中,领导座次如何安排?这个问题为什么总是一个问题.铁打的办公室,流水的工作人员.办公室是一个人员变动较多的地方.新进办公室的工作人员,不一定掌握办公室工作的一些基本套路,特别是会务技能. 隔 ...

  • 最适合入画的“十大吉祥植物”,送人必知!

    植物历来都蕴含着丰富的象征意义. 古往今来,中国的文人墨客 通过植物的某些特征.姿态.色彩 给人不同的感受而进行艺术创作, 来表达某种思想感情或某一意境. 以下介绍十种国画中常见吉祥植物,包括对它们的 ...