历时17年ENCODE计划三期完工,近百万人类基因组调控元件被发现,单细胞时空组学或将登场

2000年,人类基因组序列草图绘制完成;

2003年,DNA百科全书计划(ENCODE)启动,一项破译人类基因组功能调控机制的全球合作项目正式开工;2007年,ENCODE计划一期成果发布;2012年,ENCODE计划二期成果发布;2020年,ENCODE计划三期成果发布;

回 顾

1990年,被誉为生命科学“阿波罗登月计划”的国际人类基因组计划启动。历经十年,耗资30亿美金,在美国、日本、英国、法国、德国和中国科学家的共同合作努力下,人类基因组序列草图绘制完成,并于2000年发布,成为人类科学史上的一次重大突破。然而,此时的人类基因组草图犹如一个“空壳”,仅占人类基因组不到2%的编码区域远不足以解释复杂的生命调控现象。

在此背景下,人们意识到,人类基因组序列的绘制完成,仅仅是一个开始,要想真正理解复杂的生命调控、理解疾病的发生机制,还有很长的路要走。因此,在人类基因组所提供的框架下,破译生命密码的工作进入了有“导航”的快车道,同时陆续诞生了多项为破译人类基因组的大型国际合作项目,例如:

- 2002年,由美国、加拿大、中国、日本及英国等多个国家的研究机构共同发起的人类基因组单体型图谱计划(HapMap Project);

- 2006年,由美国国家癌症中心和国家人类基因组研究中心共同启动,并有多个国家先后参与的癌症基因组图谱计划(TCGA);

- 2008年,由中国华大基因、美国NIH、英国桑格研究所等机构启动的“千人基因组计划”;

- 2016年,在Facebook创始人扎克伯格夫妇成立的基金会的资助下所启动的“人类细胞图谱计划”;

- 以及2003年启动的“DNA百科全书计划”(ENCODE)。

人类基因组计划完成之后,人们对超过98%的基因组非编码区域非常困惑,由于其功能未知又不能编码蛋白,因此被冠名为“垃圾DNA”。然而,人类作为地球上最高级的物种,怎么会存在如此大比例的垃圾序列?此外,已知的编码序列远没有帮我们解决很多生命调控中存在的问题。因此,为了破解这些所谓“垃圾DNA”的结构和功能,在2003年,由美国人类基因组研究所(NHGRI)牵头,开启了ENCODE计划,目的在于对基因组中的功能调控元件进行更为全面而详细的结构、功能和调节的注释,编写DNA百科全书。历时近10年,耗资近3亿美金,ENCODE计划在2012年发布了第二阶段的研究成果。十年期间,ENCODE计划前前后后吸引了来自美国、英国、中国以及日本等国家32个实验室的440多名科学家的参与。针对147个细胞类型,进行了1640余次实验,获得并分析了超过15TB的数据,并且所有数据均全部公开,并以30篇论文在Nature等杂志同步发表。ENCODE第二阶段正值高通量测序技术发展的时期,因此,结合高通量测序技术和生物信息分析,不仅获得了在全面的人类转录组全景图,同时在基因组甲基化、组蛋白修饰、染色质结构,以及转录因子调控等方面获得了丰硕的成果。ENCODE计划二期的发布以强有力的科学证据为人类基因组中“垃圾DNA”正名。同年,以“垃圾DNA”才是掌控者为名,美国《时代》杂志将其列为年度十大医学突破的首位。

ENCODE计划三期结果发布

2020年7月29日,ENCODE计划三期结果重磅发布,揭示了人类及小鼠基因组中近100万个和超30万个顺式调控元件,为生命科学研究提供了极具价值的宝贵数据资源。相关研究成果发布在Nature、Nature Methods、Nature Communications等期刊(见下文)。ENCODE计划的第三阶段(2012-2017)在前期利用CHIP-seq、RNA-seq等技术的基础上,增加了新的分析技术包括ChIA-PET以及Hi-C,用于绘制染色质的三维结构全景图。ENCODE计划的第二阶段和第三阶段在500多种细胞类型和组织中共计进行了9,239项实验(其中人类7,495项,小鼠1,744项),包括对转录区域、转录本可变剪接、蛋白/转录因子结合区域、组蛋白修饰区域、开放染色质区域,以及染色质三维相互作用区域。所有这些实验结果都可以在ENCODE官网获取(http://www.encodeproject.org)。这些结果大大增强了我们对人类基因组的认知。具体而言,共识别了20,225个蛋白质编码基因和37,595个非编码基因、2,157,387个开放染色质区域、750,392个具有组蛋白修饰的基因组区域、1,224,154受转录因子和染色质相关蛋白结合的区域、845,000个与蛋白结合的RNA区域,以及超过130,000个染色质远程互作。在这十余年间,尽管已知的人类蛋白质编码基因的数量仅发生了略微的变化,但转录本可变剪接体、长非编码RNA数目和识别的潜在调控区域的数量得到了显著增长。作为ENCODE第三阶段的一个重要部分,所有调控区域的成果现已整合到DNA元件百科全书的第一版中,重点涵盖人类基因组中的90万个和小鼠基因组中的30万个顺势调控元件(cis-regulatory elements,cCREs)的注释信息。在目前整个ENCODE计划一到三期的实施过程中,已积累的各种技术如下:染色质三位结构研究实验包括:ChIA-PET (62个实验), Hi-C (31),以及5C (13)。 染色质可及性实验包括:DNAase-seq (524),  ATAC-seq (129),  (TALEN)-modified DNAase-seq (40),  FAIRE-seq  (37) , MNase-seq (2)。DNA甲基化实验:DNAme arrays (259), WGBS (124),  RRBS (103), MRE-seq(24) ,MeDIP-seq(4)。组蛋白修饰实验:ChIP–seq (1,605) 。转录本敲低/敲除实验:siRNA(54),shRNA (531), CRISPR (50) ,CRISPRi (77)。RNA结合实验:eCLIP(349), RNA bind-n-seq (158), RIP-seq(158), RIP-chip(32), iCLIP(6) ,Switchgear (2)。转录本鉴定及注释实验:RAMPAGE (155), CAGE (78), RNA-PET (31), microRNA-seq (114), microRNA counts (114), more classical RNA-seq (900) ,RNA-microarray (170), 这其中112 个实验是在单细胞水平开展。Transcription factor (TF) binding is ChIP–seq on non-histone targets (2,443).其他的实验还包括:genotyping array (123), Repli-seq (104), Repli-chip (63), MS/MS (14), genotyping HTS (12),以及DNA-PET (6)。其中,ENCODE第三期完成的实验汇总如下:

表:ENCODE第三期实验汇总,来源NATURE

Nature:

1.人类和小鼠基因组中DNA元件的扩展百科全书

Expanded encyclopaedias of DNA elements in the human and mouse genomes

文章总结了ENCODE项目第三阶段所产生的5992个新的实验数据图谱,包括对小鼠胎儿发育的系统测定。所有数据都可以通过ENCODE的门户网站获得,该数据可用于更好地理解人类和小鼠基因组。

2.小鼠胚胎发育过程的DNA甲基化时空动力学

Spatiotemporal DNA methylome dynamics of the developing mouse fetus

研究团队对来自9个发育阶段12个小鼠组织的168个甲基化组进行了分析。通过比较不同发育阶段不同组织或器官的DNA甲基化组,共鉴定出1,808,810个基因组区域存在DNA甲基化差异,揭示了哺乳动物胎儿发育过程中的表观遗传和调控情况。

3.小鼠胚胎发育过程染色质景观动态图谱

An atlas of dynamic chromatin landscapes in mouse fetal developmen

研究团队对8个发育阶段的12个部位的小鼠组织进行了染色质状态和可及性分析。对组蛋白修饰共进行了1,128次ChIP-seq检测,另外还用ATAC-seq对72个不同组织以及不同发育阶段进行了染色质可及性分析,提供了哺乳动物胚胎发育期间染色质动力学的全面图谱。

4.全组织和单细胞分辨率下的小鼠胚胎转录组变化

The changing mouse embryo transcriptome at whole tissue and single-cell resolution

在整个胚胎发育过程中,研究团队以组织水平对17个小鼠组织进行RNA表达定量,并以单细胞水平对处于发育肢体进行RNA表达定量。通过单细胞RNA-seq对组织水平转录组进行解析,发现神经发生和造血过程相关的基因在基因和细胞水平上均占主导地位。

5.人类RNA结合蛋白的大规模结合和功能图谱

A large-scale binding and functional map of human RNA-binding proteins

研究团队对K562和HepG2细胞中大量识别RNA元件的RNA结合蛋白进行了解析,综合使用5种检测方法分析并确定了RNA结合蛋白在RNA和染色质上的结合位点,生成了识别人类基因组中RNA元件的RNA结合蛋白图谱。

6.一种人类细胞类型中208个染色质相关蛋白的占位图谱

Occupancy maps of 208 chromatin-associated proteins in one human cell type

研究团队利用ChIP-seq和CETCh-seq数据,分析了单个人类细胞类型中208个转录因子和其他染色质相关蛋白质的结合图谱,提供了这些细胞中转录因子景观和基因调控网络的全面目录。

7.人类基因组中黏蛋白介导的染色质环图谱

Landscape of cohesin-mediated chromatin loops in the human genome

研究团队利用配对末端标记测序技术(ChIA-PET)对染色质相互作用进行分析,绘制了黏蛋白介导的染色质环形成在人类全基因组中的景观分布,并分析了24种不同人类细胞类型的基因表达,该图谱可识别出显示细胞类型特异性变异的loops,这表明染色质环可能有助于指定细胞特异性基因表达程序和功能。

8.人类转录因子足迹的全局参考图谱

Global reference mapping of human transcription factor footprints

研究团队对243种人类细胞和组织类型绘制了高密度的DNase I酶解图谱,并对约450万个编码转录因子占用的紧密基因组元件信息进行总结,绘制了人类转录因子足迹的核苷酸分辨率全基因组图谱。

9.人类DNase I超敏位点的指标和生物学谱

Index and biological spectrum of human DNase I hypersensitive site

研究团队对733个人类生物样本建立高分辨率DNase I超敏位点图谱。通过整合这些数据,对人类基因组序列中大约360万个DNase I超敏位点进行描述和数字索引,为调控DNA提供了一个共同的坐标系统。此外,该研究还展示了该图谱中人类基因组的顺式调控元件。Nature Communications:1.小鼠伪基因的转录活性和细胞系特异性历史Transcriptional activity and strain-specific history of mouse pseudogenes伪基因是基因组重塑过程的关键标志。研究团队报告了小鼠参考基因组和18个近交小鼠品系中假基因的全基因组注释,更新了人类假基因注释,并描述了小鼠假基因的转录和进化。研究发现,在大小、生物型分布和家族组成方面,小鼠的总体伪基因库与人类相似。2.用于癌症基因组学的集成式ENCODE资源An integrative ENCODE resource for cancer genomics

ENCODE是包含数千个功能基因组数据集的资源,涵盖数百种细胞类型,为基因组解释提供通用注释。ENCODE中提供了针对癌症的自定义注释,突出了可以帮助确定肿瘤发生中关键元件优先级的工作流程。

3.利用连锁不平衡检测各种NGS数据类型中的样本互换

Detecting sample swaps in diverse NGS data types using linkage disequilibriu

临床基因组学中的并行分析可能导致样本或数据贴错标签,进而产生严重的下游后果。研究团队提出了一种量化样本遗传相关性和检测此类错误的工具,通过对8851个ENCODE计划中ChIP-seq、RNA-seq和DNase-seq数据库进行的交叉检验,该工具可以识别并纠正几十个误标记样本和模糊元数据注释。Nature Methods:

具备表观遗传模式识别和目标验证的监督增强子预测模型

Supervised enhancer prediction with epigenetic pattern recognition and targeted validation

增强子是重要的非编码元件,但很难对其进行定性实验。研究团队利用果蝇表观遗传学和STARR-seq数据训练的监督机器学习模型,将这些表观遗传特征与学习算法相结合可以用于预测增强子。随后,研究团队确认该模型可以用于哺乳动物中增强子的预测。bioRxiv:基于转录事件定义人类主要细胞类型A limited set of transcriptional programs define major cell typeENCODE为人体不同位置的多种原代细胞提供了RNA测序数据。这些原代细胞的RNA测序结果聚类表明,人体内的大多数细胞都具有一些广泛的转录程序,这些程序定义了五种主要细胞类型:上皮细胞、内皮细胞、间充质细胞、神经细胞和血细胞。

展 望

图:ENCODE数据总览,来源:NATURE

近年来,与ENCODE计划相似的国际间合作项目不断涌现(见下),如何将这些成果整合到生命的“百科全书”中,如何通过功能基因组学研究去验证这些调控元件的生物学功能,等等,均是生命科学领域所面对并需要完成的任务,任重而道远!同时,细胞作为生命的基本单元,在单细胞的空间及时间维度去研究生命的调控将成为人们进一步认知生命、攻克疾病的有力武器。目前正在开展的部分国际合作计划及项目:NIH Roadmap Epigenomics Program,NIH表观基因组学计划;The Cancer Genome Atlas (TCGA),癌症基因组图谱计划;The International Human Epigenome Consortium (IHEC),国际人类表观组学联盟;The Canadian Epigenetics, Environment and Health Research Consortium (CEEHRC),加拿大表观遗传学、环境和健康研究联盟;The Genotype and Tissue Expression Project (GTEx),组织遗传变异与基因表达计划;Functional Annotation of Animal Genomes (FAANG),动物基因组功能注释联盟;The Global Alliance for Genomics and Health (GA4GH),全球基因组与健康联盟;The 4D Nucleome Program (4DN),4D核小体项目;The Human Cell Atlas,人类细胞图谱计划;The FANTOM consortium,哺乳动物基因组功能注释联盟;

https://www.bilibili.com/read/cv6975593

(0)

相关推荐