1990年正式启动的人类基因组计划(Human Genome Project, HGP)是人类科学史上的又一个伟大工程,被誉为生命科学的“登月计划”。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。
作为一项规模宏大、跨国跨学科的科学探索工程,HGP的目标是完成对人类基因组中的30亿碱基的测序,绘制人类基因组图谱,辨识其载有的基因及其序列,从而达到破译人类遗传信息的目的。有趣的是,2001年2月15日,《自然》率先发表HGP(国际人类基因组计划)的“人类基因组的最初测序和分析”;第二天,《科学》杂志不甘示弱,发表了Celera (私人企业塞雷拉基因组公司)的“人类基因组测序”。其中,由HGP和Celera相互竞争而又各自独立完成的2001年人类基因组工作草图的发表,被认为是人类基因组计划的里程碑。这两篇极其重要的论文成为当年最火的科学论文,《科学》与《自然》杂志也因为发表人类基因组草图,同时获得阿斯图里亚斯王子传播与人文奖。长期以来,对微生物(microorganism)功能开展的研究主要是以在实验室培养单一物种(individual specie)为主。然而,在此之前许多微生物学家已经认识到只有1%的微生物多样性可以通过实验室标准栽培方法获得,那么剩下的99%又该如何研究?2004年,两项关键性研究通过对环境中采集的多种不同微生物的样本进行测序,成功构建了样本中不同微生物的基因组序列,并识别到以前未知的微生物基因。这两项研究表明,可以利用DNA测序技术所产生的测序数据重建微生物群落,实现复杂微生物群体中不同微生物的分类工作,这揭示了宏基因组学(metagenomics)的巨大潜力,也开启了宏基因组学领域的大门。目前,宏基因组以无需纯化培养、能够快速全面地展示微生物碱基序列信息的优势,渗透到各个领域,包括海洋、土壤、热液口、热泉、人体口腔及胃肠道等,并在医药、替代能源、环境修复、生物技术、农业、生物防御及伦理学等各方面显示了重要的价值。时间回到1977年,那一年Frederick Sanger 与其同事研究出了准确测定DNA片段的碱基序列的方法,以发明者Frederick Sanger博士命名Sanger双脱氧核苷酸测序技术(简称Sanger测序,被归为第一代测序技术) 。
由于有了已完成拼接组装的人类基因组作为参考,若能采用廉价、快速的方法对多个样本、群体、病种基因组进行测序和比对,我们就能获得大量有价值的科研和临床信息。然而,Sanger测序法需要通过电泳分离大小不同的DNA片段来读取DNA序列,在成本和速度上的局限限制了它的大规模应用。于是,人们开始探索价格更低、速度更快的手段。2005年,两项革命性的研究采用了高通量、大规模并行测序技术,这些技术对完整的细菌基因组进行测序所消耗的时间和成本远低于Sanger测序。高通量测序技术是对传统Sanger测序技术革命性的变革,可以一次对几十万到几百万条核酸分子进行序列测定,因此也称其为下一代测序技术 (Next Generation Sequencing, NGS),NGS技术的出现使得对一个物种的转录组和基因组进行细致全貌的分析成为可能。染色质免疫沉淀法(ChIP)是分子生物学中应用最广泛的技术之一,是研究体内蛋白质与DNA相互作用的有力工具,利用该技术不仅可以检测体内反式因子与DNA的动态作用,还可以用来研究组蛋白的各种共价修饰,以及转录因子与基因表达的关系。后来,研究人员将ChIP与二代测序技术相结合,开发出染色质免疫沉淀测序技术(ChIP-seq),该技术能够高效地在全基因组范围内检测与组蛋白,转录因子等蛋白质互作的DNA区段。从基因组层面探索蛋白质与DNA的相互作用,进一步使得科学家有机会了解不同蛋白质的染色质结合模式,从而更深入地认识基因调控的机制和相关遗传学问题。人类基因组计划向人们展示了大规模国际合作的成果,但这背后也意味着巨大的经济和时间成本。从那以后,科学界一直在开发更快、更低成本的基因测序技术。2008年,新一代测序技术在人类个体基因组的开创性应用被公布。研究分别报道了一名非裔个体和一名亚裔个体的基因组。在这两项研究中,研究人员使用了称为Solexa测序的下一代测序技术,这一技术是目前Illumina公司短读测序仪的基础。第一版人类基因组图谱耗资30亿美元,耗时十几年。而使用下一代测序技术,在2008年可以在几周内完成一个人类基因组的测序工作,同时该项技术还将一个人类基因组的测序成本降低到50万美元。时至今日,随着技术的发展和成熟,完成人类全基因组测序的成本已经从当年的 30 亿美元,逐渐降低到数十万美元,数千美元甚至更低。市场上也出现了众多面向大众的消费级基因检测产品。在人类基因组图谱发布之后,从事癌症研究的科学家们很快就意识到了DNA测序在癌症研究和抗癌疗法开发方面的巨大潜力。基因组学可能帮助回答与癌症相关的一些根本性的问题,例如,肿瘤细胞中究竟包含了哪些基因变异?
2008年11月6日出版的《自然》发布了首个急性髓系白血病(AML)样本的全基因组序列,这不仅是公开的第一个癌症患者基因组序列,而且是首次对女性基因组测序。在这项研究中,科学家使用下一代测序技术,对一名50多岁的AML患者的肿瘤细胞和正常皮肤细胞样本进行了全基因组测序。通过将癌细胞的基因组序列和正常细胞的基因组序列进行比较,研究人员发现了在癌细胞中的8个全新基因突变,同时根据骨髓样本检测了其肿瘤细胞中的遗传突变。这一研究为大规模癌症基因组测序和揭示癌症秘密打下了基础,自这一突破以来,肿瘤学领域的测序研究以惊人的速度进展。如今,基于DNA测序的检测已经能够帮助发现癌症驱动基因,肿瘤突变负荷以及新抗原的出现,为个体化治疗提供非常宝贵的信息。人类基因组图谱虽然揭示了人类基因组的DNA序列,但是要进一步了解这些序列的功能,科学家们需要对DNA转录产物RNA进行检测。在21世纪初,对转录组(transcriptome)的研究依靠的主要技术之一是微阵列芯片(microarray)技术。然而,这一技术的缺陷在于只能研究固定在微阵列芯片上的已知基因或外显子序列对应的 RNA序列。
2008年,一系列研究在不同生物模式生物中展示了使用高通量下一代测序技术对转录组进行测序的可能。这种称为RNA测序的技术首先通过mRNA的Poly(A)尾筛选出mRNA序列,然后将它们逆转录生成cDNA并且使用下一代测序技术对cDNA进行测序,从而获得 mRNA 序列信息。在2008年,利用RNA测序技术,多个研究团队对酵母和拟南芥(Arabidopsis thaliana)的转录组进行了测序,并发现了全新的转录本和基因。RNA测序不但能够确定功能性基因组,而且可以用于监测不同条件下RNA的数量变化,目前已经成为遗传学、生物学和医药领域的标志性研究工具之一。人类基因组非常长,任何DNA测序仪都无法一次性读取所有碱基信息。第二代测序技术虽然通量大大增加,但其获得单条序列长度很短,想要得到准确的基因序列信息依赖于较深的测序覆盖度和准确的序列拼接技术,因此最终得到的结果会存在一定的错误信息。2009年,以PacBio公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术为代表的新一代测序技术出现,被称为第三代测序技术。与前两代测序技术相比,该技术在保证测序通量的基础上,最大的特点就是长读长,测序过程无需进行PCR扩增,能够直接得到长度在数万个碱基的核酸序列信息。研究表明,人类85%以上的疾病基因都由外显子碱基突变造成。过去,想要找到单基因疾病的原因通常先要通过遗传学研究确定可能的致病突变在染色体上的位置。2009年,华盛顿大学(University of Washington)的Sarah Ng博士等人第一次应用外显子组测序在Freeman-Sheldon综合征患者中发现致病基因MYH3突变。这一研究确立了使用外显子测序技术发现致病基因变异的研究框架。随后,这一团队应用同样的策略,又发现了Miller综合征等其它单基因疾病的致病基因变异。外显子组测序技术通过使用微阵列捕捉到基因组DNA中的外显子序列,然后对富集的外显子序列进行测序。它在降低测序成本的同时,对编码蛋白的序列能够进行更深度的测序,不仅能快速发现罕见遗传疾病的致病基因,也能用于研究多基因引起的常见疾病,如癌症、糖尿病、高血压等,来揭示这些疾病的遗传致病机理。谈及Hi-C技术,我们不得不先说下它的老祖宗,3C,即Chromosome Conformation Capture。2002年,Job Dekker团队在《Science》发文,首次报道了利用Nuclear Ligation Assay的思想研究空间上相互靠近的DNA片段。由于人类基因组计划到2003年才宣告完成,所以当时还只能用半定量PCR的方法寻找具有特定反向链接的DNA片段,因此只能做到一对一。2006年,DNA芯片和测序技术推动了4C和5C的出现,做到了“一对多”和“多对多”的交互。最后,Liebermann-Aiden等在2009年开发出基于高通量测序方法在全基因组范围内研究染色质空间构象的新技术,即今天所讲的Hi-C技术,自此我们对细胞核内染色体排列的认识取得了巨大飞跃。基于对组织样本的基因表达检测只能够发现不同细胞类型产生的平均结果,这可能导致研究人员忽略特定细胞类型的表现。
2009年, Nature Methods 发布了首个对单个小鼠卵裂球(blastomere)进行的全转录组测序研究 。与微阵列芯片技术相比,该技术具有更高的灵敏性,研究人员不但能够检测到更多表达的基因,还能发现全新的剪接位点。2013 年,Nature Methods 将单细胞测序评为“年度技术”,认为该技术将会改变生物界和医学界的诸多领域。自此,单细胞测序开启了属于自己的高光时代,越来越多地被应用在基础科研和临床研究等方面,为分析细胞状态、发现罕见细胞类型、追踪细胞发育轨迹和谱系,以及研究肿瘤异质性都提供了有力的工具。上世纪80年代,PCR技术的出现使得DNA测序成为可能,但对古人类DNA进行测序还存在样品污染及降解等难题。2010年,尼安德特人基因组序列草图发表,所用数据来自克罗地亚一个洞穴中发现的3根尼安德特人的骨头。当年他们又在西伯利亚南部丹尼索瓦(Denisova)发掘出一块趾骨,从该趾骨中提取出0.038克的DNA,利用高灵敏技术经过两年多的测序分析,绘制出了来自一个尼安德特人的基因组序列。这是古基因组学研究的重大革命,增进了我们对灭绝的人类血统之间的关系以及现代人类如何传播到世界各地的认识。国际千人基因组计划,是一项由中英美德等国科学家共同承担的研究任务,旨在绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱。2012年11月大型国际科研合作项目“千人基因组计划”的研究人员在新一期《自然》上发布了1092人的基因数据。这是科学界首次实现千人规模以上的基因组对比分析,这一成果将有助于更广泛地分析与疾病有关的基因变异,比如携带者占总人口比例不到1%的基因变异。这些罕见基因变异或许与疾病有关,例如可能增加心脏病或癌症的患病风险,对基因变异进行研究有助于开发预防、治疗相关疾病的方法,为个体化医学时代的到来奠定了坚实的科学基础。人类基因组计划(Human Genome Project,HGP)的完成标志着科学家们已将人类的一个完整的遗传密码握在手中,然而科学家们已经意识到,确定基因组的DNA序列还远远不能达到了解生命分子过程的目的。
于是,2003年DNA百科全书计划(ENCODE)启动,一项破译人类基因组功能调控机制的全球合作项目正式开工,目标是建立人类基因组中所有有功能性的元件清单,包括在蛋白质和RNA 水平上起作用的元件,以及激活细胞与协同环境的调控元件。
2012年,ENCODE计划二期成果发布,针对147个细胞类型,进行了1640余次实验,获得并分析了超过15TB的数据,并且所有数据均全部公开,并以30篇论文在Nature等杂志同步发表。ENCODE第二阶段正值高通量测序技术发展的时期,因此,结合高通量测序技术和生物信息分析,不仅获得了人类转录组图谱,同时在基因组甲基化、组蛋白修饰、染色质结构,以及转录因子调控等方面均获得了丰硕的成果。ENCODE计划的第三阶段(2012-2017)在前期利用CHIP-seq、RNA-seq等技术的基础上,增加了新的分析技术包括ChIA-PET以及Hi-C,用于绘制染色质的三维结构全景图。目前这一项目已经进入到第四阶段。它将进一步整合个体基因组和单细胞多组学信息,为了解人类生物学、进化和疾病提供一本与时俱进的“百科全书”。近年来,随着多种植物参考基因组的不断公布及同种不同个体植物基因组间的相互比较,人们逐渐认识到单一参考基因组不能代表物种的多样性,这导致了泛基因组概念的产生。泛基因组概念最早于2005年在细菌中提出,2007年在植物玉米中单拷贝序列和LTR中应用。直到2014年,在三代测序技术的助力下,植物泛基因组也迎来了黄金发展期。同年,首篇植物大豆的泛基因组发表,开启了植物泛基因组研究历程,随后玉米、水稻、甘蓝、芝麻、向日葵和番茄等物种的泛基因组研究相继发表在各大期刊。泛基因组测序是运用高通量测序及生物信息分析手段,针对不同亚种/个体材料进行测序及泛组装,构建泛基因组图谱,丰富该物种的遗传信息。不仅可以获得多个个体基因组,完善该物种的基因集,还可以获得种群甚至个体特有的DNA序列和功能基因的信息,为系统进化分析及功能生物学研究奠定基础。近年来,对脊椎动物基因组进行测序几乎成为常规操作,但大多数二倍体基因组的组装都面临着高度碎片化和不完整的问题。2017年,最新山羊(Capra hircus)基因组ARS1发表于《Nature Genetics》,本次研究中山羊基因组采取了目前动植物基因组测序组装的主流策略,以PacBio长读长测序数据为主体,结合光学图谱BioNano及Hi-C技术进行Scaffolding,得到了一个高质量、高连续性的山羊基因组,可用于开发基因分型工具,能够快速、可靠地分析羊奶、肉质或对恶劣环境的适应情况等性状。该研究利用单分子测序和染色质构象捕获等技术相结合,得到了染色体级别的scaffold,降低了基因组完成图的成本,这种方法能进一步降低成本并改善大量de novo组装的质量,标志着基因组从头组装进入了白金时代。经过近二十年的改进,人类基因组参考序列是迄今为止最准确和完整的脊椎动物基因组序列。然而,仍然还有数百个未知的空白或缺失的DNA序列。这些缺口通常包含重复的DNA片段,难以测序。但这些重复片段却是控制人类遗传信息变异最丰富的区域之一,可能隐藏着理解人类生物学和疾病很重要的信息。2020年科学家宣布首次完成完整的人类X染色体的端粒到端粒的组装,填补了人类基因组序列中的空白,而且精确度达到了前所未有的水平,在基因组测序领域是一个里程碑式的成就。该研究的主要作者凯伦·米加(加州大学圣克鲁兹基因组学研究所的研究科学家)说,此项目之所以能够完成,核心所在是运用了一项新技术——纳米孔测序技术。通过这种新技术,可以对长段DNA进行测序,能对整个重复区域的数十万碱基对的超长读数,其中就包括以前空白或重复的DNA序列。应用纳米孔测序技术获取的完整的基因组序列,在连续性、完整性和准确性方面超过了之前所有拼接组装工作得到的的人类基因组序列,甚至在某些指标上超过了当前的人类标准基因组序列。实现完整的染色体的基因组序列测序、组装与拼接是一项技术创举,虽然不知道在未来新发现的基因序列中会发现什么,但纳米孔测序技术将继续在人类遗传学和基因组学领域创造新的机会,开启一个全新的基因组序列的时代。
来源:齐泰科技、Nature《基因组测序技术发展史》专刊