14篇Nature系列合集:DNA元件百科全书最新成果出炉,近6000项实验、120万个功能性元件,挖掘基因开关的奥秘

2003 年,人类基因组计划完成,揭开了人体 30 亿个碱基以及约 20000 多个蛋白编码基因的秘密。然而这些基因只占人类基因组的 2%。因此,在随后的 20 年时间里,科学家一直在尝试寻找人类剩余 98% 的 DNA 具有什么功能。
现在,一项名为 DNA 元件百科全书计划(ENCODE)的系列研究朝着这一目标取得了重大进展,该研究第三阶段发现了 120 多万个基因调节元件,以及它们何时、何地调节基因的 “开关”。
《自然》《自然-方法》和《自然-通讯》发表的 14 篇论文合集描述了这一结果,为基因组组构和功能带来了新的认知。
Nature 杂志官网 ENCODE 合集
目前,这一系列研究的数据已对外开放。正如来自美国国家人类基因组研究所(NHGRI)的 Eric Green 博士所说,“ENCODE3 的主要目标之一就是开发可以与更广泛的研究团体共享 ENCODE 实验数据的方法,这有助于扩大我们对基因组功能的理解,ENCODE3 开放了搜索和可视化工具,从而使科学工作者可以更快捷的访问这些数据。”
探索基因的奥秘
人体由数千种、数万亿个细胞组成。尽管所有的细胞都来自同一个受精卵,共用一套基因组,但是不同类型的细胞(例如,心脏细胞、肺部细胞以及神经细胞)可以通过激活基因组中不同的基因来执行不同的功能。深入了解基因调控机制,有助于更好的了解人体细胞发育以及疾病发生的机制。
功能性元件是指编码具有调控基因作用的分子产物或生化活动的 DNA 区域。ENCODE 计划于 2003 年启动,致力于绘制人类与小鼠基因组功能性元件的综合图谱。作为一项广泛协作的基础研究工作,ENCODE 计划涉及来自美国和国际各地的小组,由 500 多名具有不同专业知识的科学家组成。
得益于世界各地独立研究人员进行的数十年基因调控研究,并以此为基础,ENCODE 研究人员创建了一个社区资源,以确保任何研究人员均可访问该项目的数据。
DNA 元件百科全书计划(ENCODE)概述
为了进一步阐明基因以及各种调控因子之间相互作用的细节,ENCODE 3 研究人员进行了近 6000 次实验,包括人类实验 4834 次,小鼠实验 1158 次。
ENCODE 3 研究人员研究了胚胎小鼠组织的发育过程,以了解在小鼠发育过程中发生的各种基因组和生化变化的时间表。小鼠由于其与人类的基因组和生物学相似性,可以帮助我们了解人类的发育和疾病发生。
根据 ENCODE 已经绘制出的数百万个元件,研究人员还建立了一个在线注册库,里面包含了 926535 个人类的和 339815 个小鼠的候选顺式调节元件(调节基因转录的非编码 DNA 区域),覆盖到各自基因组的 7.9% 和 3.4%。
此外,研究人员利用 ENCODE 的数据集揭示了决定部分功能性元件作用方式的原理,分析了 DNA、与 DNA 结合蛋白、RNA 的化学修饰如何相互作用以调控基因的表达。ENCODE 3 的结果也有助于解释蛋白质编码区以外的 DNA 序列变异如何影响基因的表达,甚至是距离特定变异本身很远的基因。
基因组中的 DNA “开关”,调节了基因何时何地被打开(来源:Ernesto Del Aguila III, NHGRI.)
连接 RNA 和疾病
此前,人们主要依靠染色质免疫共沉淀测序(ChIP-seq)技术来检测 DNA 调控元件的序列。这一技术可以帮助研究人员识别 DNA 结合蛋白与 DNA 的结合位点,从而确定这些 DNA 序列的功能。
然而,这一技术不会检测参与基因调控的 RNA 元件。因此,研究人员采用了增强紫外交联免疫沉淀结合高通量测序(eCLIP)技术,该技术可以使用紫外线将 RNA 分子与细胞内的 RNA 结合蛋白交联,然后用特定的抗体分离 RNA 结合蛋白,并对与之结合的 RNA 进行测序。
RNA 结合蛋白在细胞中具有多种生物学功能,例如剪切蛋白质编码信使 RNA、终止转录、增强蛋白质翻译、翻译后分解 RNA 以及将 RNA 引导至细胞中特定的位置。确定与 RNA 结合蛋白想结合的 RNA 可以更详细的阐明相关 RNA 分子的功能。
不过,RNA 结合蛋白结合位点是转录组中的候选功能元件,并不是所有的 RNA 结合蛋白结合位点,因此需要用其他类型的方法进行补充实验以评估其功能。
为此,研究人员首先对大约 150 个 RNA 结合蛋白进行了增强紫外交联免疫沉淀结合高通量测序(eCLIP),然后在人体细胞中敲低部分 RNA 结合蛋白表达,通过结合两个实验的数据,检测这种敲低对与 RNA 结合蛋白相结合 RNA 分子的影响。
同时,研究人员还采用了一种称为 RNA Bind-N-Seq 的技术能够更精确地缩小 RNA 结合蛋白和 RNA 结合位置。
通过这些技术,每对一种蛋白质进行实验,研究人员可以发现大约 350 种与之相关的 RNA 结合蛋白以及相关 RNA。这些 RNA 结合蛋白的功能取决于其与相应 RNA 的结合位点。结合这些实验的数据,研究人员可以制作一个图集,描述 RNA 结合蛋白的功能以及相应的 RNA 结合位点。
这套图谱可以帮助研究人员弄清楚 RNA 结合蛋白每种结合模式的特点,也就是为什么 RNA 结合蛋白在某一位置会激活,但在另一个位置则会抑制。
此外,来自蒙特利尔大学 Lecuyer 教授的研究小组,还使用荧光蛋白标记了 300 多个 RNA 结合蛋白以确定它们在细胞中的位置,以帮助科学家更多地了解每一个 RNA 结合蛋白的功能以及与之结合的 RNA。
对此,UCONN Health 遗传与基因组科学系教授兼主席 Brenton Graveley 博士表示:“ ENCODE 3 中生成的数据极大地增进了我们对人类基因组的了解。该项目有助于我们更清晰的认识以前的数据类型(例如 DNA 结合蛋白和染色质标记)以及新的数据类型(例如长距离 DNA 相互作用和蛋白质 - RNA 相互作用)。
尚未完成的百科全书
《自然》同时发表的一篇的 “观点” 文章也指出,这个尚未完成的百科全书已经成为了解基因调控和遗传易感性疾病的经典工具。
在 ENCODE 项目即将到来的第四个阶段中,通过使用高通量功能基因组技术,我们将兴奋地看到这些调控元件是否实际上执行了根据组蛋白修饰和结合蛋白推断出的功能的系统评估。而在单细胞分辨率下,将 ENCODE 扩展到更广泛的生物领域(如疾病样本和罕见细胞类型),将有助于研究人员利用基因组信息诊断和预防疾病。
资料来源:
https://www.encodeproject.org/
https://www.genome.gov/news/news-release/NHGRI-funded-project-creates-encyclopedia-detailing-inner-workings-of-human-and-mouse-genomes
http://news.mit.edu/2020/bringing-rna-genomics-0729
论文链接:
https://www.nature.com/articles/s41586-020-2493-4
https://www.nature.com/articles/s41586-020-2449-8
https://www.nature.com/articles/s41586-020-2077-3
https://www.nature.com/articles/s41586-020-2151-x
https://www.nature.com/articles/s41586-020-2023-4
https://www.nature.com/articles/s41586-020-2093-3
https://www.nature.com/articles/s41586-020-2119-x
https://www.nature.com/articles/s41586-020-2536-x
https://www.nature.com/articles/s41586-020-2528-x
https://www.nature.com/articles/s41586-020-2559-3
https://www.nature.com/articles/s41467-020-14743-w
https://www.nature.com/articles/s41467-020-17157-w
https://www.nature.com/articles/s41467-020-17453-5
https://www.nature.com/articles/s41592-020-0907-8
(0)

相关推荐