数据驱动的生命科学
吴家睿 中国科学院生物化学与细胞生物学研究所
导读
经典的生命科学推崇假设,追求机制。然而,人类基因组计划催生了生命科学的新范式,即数据驱动的研究范式。这种新范式打破了传统的决定论局限性,进而形成了开放式研究的认识论新体系。
充满不确定性的生命科学
20世纪中叶诞生的分子生物学建立在还原论的基础上,认为生命活动遵循着基本的物理学和化学规律;正如薛定谔在其名著《生命是什么》中所指出的:对生物体而言,“在它内部发生的事件必须遵循严格的物理学定律”[1]。也就是说,在分子生物学家看来,生命是一部按照决定论规律运转的”机器“;研究者的任务就是去认识和揭示这种规律,即生命科学中常常提到的“机制”(mechanism)。基于还原论的生命科学决定论者往往有这样一个潜在的信念,只要掌握的知识足够充分、信息足够精确,就可以认识和控制一切生命活动,就能够消灭危害人类的所有疾病。现代生命科学那种研究核酸和蛋白质等生物大分子三维空间结构的热情正是这种决定论观点的突出体现:人们试图精确到原子水平去解释生物大分子的功能或它们之间的相互作用,进而去发现生物体内确定的分子作用机制。换句话说,分子生物学建立在这样一个观念上——结构决定功能。
然而,生物体内的生物大分子种类繁多、数量巨大,即使是大肠杆菌这样简单的单细胞原核生物所拥有的各种蛋白质分子的总拷贝数就高达250万个左右,其整个细胞容积的30%左右都被生物大分子占据。因此,这些生物大分子在细胞内通常处于极端拥挤环境和无序排列状态下。更重要的是,蛋白质和核酸等各种生物大分子具有不可穿透性,不能像无机小分子那样在溶液中自由扩散和运动,导致任何一个生物大分子的实际可及空间大大减少,被称为“排斥体积效应”。这种拥挤的细胞液态环境和排斥体积效应导致生物大分子之间产生了相当复杂的相互作用,其中有一种相互作用被称为“相分离”(Phase separation)。生物体的相分离是指:特定的蛋白质和RNA等生物大分子可以在一定条件下组织起来,形成高浓度的特定分子聚集的“液滴”,就如同油滴从水中分离出来一样[2]。不同于传统意义上的蛋白质相互作用,具有相分离能力的蛋白质往往是依靠一类没有确定三维结构的“内部无序区域”(Intrinsic Disorder Region, IDR)之间的相互作用来实现相分离[2]。
生物大分子不仅具有结构上的无序组织,而且在其合成的过程中也有许多随机波动存在。这种生物大分子具有的随机波动性通常被称为生物学噪音(Biological noise),主要表现在基因转录和蛋白质翻译过程中,如基因转录过程中它的启动子被激活和灭活时间响应的快慢差异,或者蛋白质合成反应和降解反应的速率差异等。研究者发现,在原核细胞中,噪音对基因转录的影响不大,主要是影响蛋白质的合成水平;而在真核细胞中,噪音不仅影响蛋白质的合成,而且可以显著地影响基因表达水平。
生物学噪音导致的一个重要生物学现象就是,基因表达水平与蛋白质合成水平之间数量关系的相关性不高。过去人们认为基因与蛋白质的丰度变化关系是线性的,即基因转录产生的mRNA拷贝数多,则相应的蛋白质数量就高;反之,前者少的时候后者也少。然而,在对酵母细胞和动物细胞等不同种类生物体的转录组和蛋白质组的定量分析中,研究者都观察到mRNA丰度和相应的蛋白质丰度之间并没有很好的相关性。一项对大肠杆菌的单分子研究发现,在生物学噪音的影响下,基因表达量和相应的蛋白质表达量之间呈现出随机的关系;以至于研究者得出这样一个结论:“对任何一个给定的基因而言,在单个细胞内的蛋白质拷贝数和mRNA拷贝数之间没有相关性” [3]。美国科学家最近用质谱技术定量分析了32种人体组织中1万2千多个基因的蛋白质表达情况,然后与转录组测序获得的基因表达丰度数据进行了比较,其结果同样证实了这二者的相关性并不高;研究者进一步指出:“组织特有的蛋白质信息能够解释遗传疾病的表型,而仅仅采用转录组信息则做不到这一点”[4]。
人们通常把随机性“噪音”视为对生命的负面影响,例如在基因转录和蛋白质翻译等重要的生命活动中存在的不确定性扰动;由此来看,噪音对生命没有好处,应该要被消除。但越来越多的研究表明,生命中的噪音不仅难以消除,而且对生命也有着积极的一面,常常具有许多重要的生物学功能。例如,生物学噪音在DNA复制过程中往往引发随机突变的产生,为生命的演化提供原材料;而在细胞信号转导过程中,生物学噪音可以利用细胞的正反馈机制来放大信号,从而帮助细胞做决定。此外,虽然生物学噪音可以由细胞间的差异产生,但生物学噪音同时可以用来维持和加强细胞的个体差异特征,影响个体的发育和生长。不久前一项基于单细胞RNA测序数据的分析表明,在小鼠骨髓调控血细胞发育的过程中,转录因子的基因表达噪音参与到细胞状态的转换,进而影响了这些细胞的命运[5]。
当前,对生物学噪音及其对生命活动影响的研究正在成为一个新的科学前沿,有研究者甚至称之为“噪音生物学”(Noise biology)。这类研究让我们认识到,生物体作为一个开放的非线性复杂系统,一方面自身具有各种内在的随机噪音,另一方面生存于充满不确定性的外部环境之中。可以这样说,地球上生命的演化过程就是由偶然性推动的,它的存在使得生命能够从最简单的原核细胞形式发展出如此复杂多样的动植物。如果生物世界真的是由确定性所统治,那么今天地球上存在的生命很可能依然只是大肠杆菌一类简单的单细胞生物。
数据驱动的生命科学
这种对生命的决定论世界之否定,使得我们有必要重新审视还原论者推崇的现代生命科学的“假设驱动”研究范式。对决定论者而言,一切事物的发生发展都是遵循着一定的规律,有因必有果;一项科学研究的主要目标通常就是去证实或证伪某种因果关系的假设。现代生命科学也是如此。美国著名的肿瘤生物学家温伯格(Weinberg R)在一篇题为“假设优先”的文章中就开宗明义地指出:“在20世纪,生物学从传统的描述性科学转变成为一门假设驱动的实验科学。与此紧密联系的是还原论占据了统治地位,即对复杂生命系统的理解可以通过将其拆解为组成的零部件并逐个地拿出来进行研究”[6]。
人类基因组计划的实施催生了一种全新的研究范式——数据驱动的研究。一个人的基因组具有30亿个以上的碱基对,即相当于3Gb以上的数据。随着核酸测序技术的改进,个体全基因组测序的成本现已低于1000美元;目前国际上储存的个体基因组序列的数据量已达到百万人级的规模。与此同时,基因组测序也成为了健康医学研究的基本目标,如美国国立卫生研究院在2006年牵头启动了国际癌症基因组项目“癌症基因组图集”(The Cancer Genome Atlas,TCGA);到2017年底,该项目分析了3万2千多个患者的肿瘤样本,覆盖了60个组织/器官的38个癌种及其亚型,测到了311万多个基因变异;产生了超过20PB(1PB = 1015 Byte)的肿瘤基因组数据。此外,转录组、蛋白质组和代谢组等各种生命组学数据也被大量产生。生物医学大数据正在彻底改变着生命科学和医学的研究范式。正如2011年美国首部关于“精确医学”(Precision medicine)的战略报告所指出的:“开展本项研究的动机在于,与人体有关的分子数据正在爆发性的增长,尤其是那些与患者个体相关的分子数据;由此带来了巨大的、尚未被开发的机会,即如何利用这些分子数据改善人类的健康状况”[7]。联合国教科文组织在一份科学报告中也明确指出:到2030年,科学不仅基于数据来开展研究,任何科学发现的基本产出也是数据。换句话说,后基因组时代是一个大数据时代,大数据重塑了生命科学研究,研究者不仅继续能够在假设驱动下开展研究工作,也可以在全新的数据驱动的范式下进行研究。
数据驱动的研究范式与假设驱动的研究范式有着本质的区别,首先是研究的“初心”不一样,前者不需要假设,不以解决具体的科学问题为己任,其主要研究目的是去获取研究对象的相关信息。人类基因组计划就是数据驱动型研究的典型代表;该计划的初衷是要测定人类基因组拥有的全部核酸序列。在传统的生命科学研究中,研究者往往是根据某种假设把研究目标锁定到由一段核酸序列组成的一个基因之上,进而深入地研究其功能或者调控机制;对人类基因组计划而言,研究者则是通过全基因组序列的测定去发现在这些序列中隐藏着的2万多个基因。因此,数据驱动的研究通常又被称之为“发现的科学”(Discovery science)。
虽然假设驱动的研究范式在现代生命科学的产生和发展中扮演了重要的角色,并成为科学研究的主流,但是,这种研究范式也带有一种先天缺陷。英国科学哲学家查尔默斯(Chalmers, AF)在其名著《科学究竟是什么?》中指出,基于假设驱动的研究范式之科学是“从事实中推导出来的”[8]。在他看来,关键是怎样获得“事实”,“其中的一个困难在于,知觉经验在一定程度上受观察者的背景和期望影响,因而,对一个人看来是可观察的事实,对另一个人就未必如此。第二个困难源自于对观察命题的真假的判断在一定程度上依赖于已知或假设的是什么,这样就使得可观察事实像作为其基础的前提一样是可错的。这两种困难都暗示着,科学之可观察的基础可能并不像人们广泛地和在传统上认为的那样直接和可靠”[8]。
由于数据驱动的研究不依赖于假设,因而可以避免这种对“事实”的主观性选择和判断。美国生物学家戈卢伯(Golub, T)在一篇题为“数据优先”的文章中明确指出:“如果没有获得全面的肿瘤基因组数据,将难以区分信号和噪音。尽管假设驱动的实验科学依然处于研究领域的中心位置,但不带偏好的肿瘤基因组测量将提供前所未有的机会去催生新的想法”[9]。换句话说,数据驱动的研究范式不仅能够避免研究者可能的主观偏见,而且可以帮助其发现在假设或者现有理论范围之外的全新知识。我们还可以进一步引伸一下——经典的科学哲学认为,科学研究需要在由一系列假设和理论搭建的框架内进行;这种指导研究的“框架”被库恩(Kuhn, T)称为“范式”(Paradigm),拉卡托斯(Lakatos, I)称之为“研究纲领”(Research program)。而数据驱动的研究范式的一个“亮点”就是:可以不受现存研究“框架”的制约。
数据驱动的与假设驱动的研究范式之间还有一个重要的区别,即研究策略不一样,前者往往具有一个明显的特征:即把研究目标分解为若干次要目标,然后开展相应的研究工作,并在前期研究结果的基础上反复地进行完善,通过多次研究逐渐逼近预定的总体目标;每一次重复研究的过程称为一次“迭代”(iterate)。这种“迭代”式研究策略意味着允许每一次研究工作是不完备的,可以接受局部的或非最优的阶段性研究成果。而假设驱动的研究则追求研究成果的完备性,尽可能通过一次性研究工作就可以完整地解答科学问题或证明科学假设。
后基因组时代的许多生命科学研究计划明显具有这种“迭代”特征,其中最具代表性的例子依然是人类基因组计划。虽然人类基因组计划的终极目标是揭示人类基因组的所有核酸序列,但2001年2月发表的人类基因组测序的里程碑成果不过只是覆盖了基因组90%核酸序列的“草图”;2003年4月国际人类基因组测序联合体才正式宣布人类基因组全图绘制成功;且2004年10月在《自然》周刊上发表相应的论文中,也只给出了常染色质区域内大约99%核酸序列的测定结果。因此,人类基因组序列中至今仍然存在许多高度重复序列区域(如中心粒)没有被测定,2020年9月,研究者终于在《自然》周刊上发表了第一个完整的、没有测序“缺口”的人类X染色体测序工作(还剩下22条染色体待研究者将来去进行补测)。不久前,研究者提出了一个比“人类基因组计划”更为宏大的“人类细胞图谱”(Human Cell Atlas,HCA)研究计划,其基本目标是,通过特定的分子表达谱来辨识和确定人体拥有的40到60万亿个细胞中所有细胞类型;采用的主要研究策略也同样具有“迭代”特征[10]。
数据驱动的研究范式之“迭代”模式既不属于“观察-归纳-证实”的“实证性研究”,也不属于“问题-猜想-反驳”的“证伪性研究”,其研究成果既不能被证实,也不能被证伪。在整个数据“迭代”的过程中,每一次研究获得的成果都不是决定性的或完备的,如2004年发表的人类基因组“全图”并不证实或否定2001年发表的“草图”。更重要的是,数据驱动的研究范式作为一种超越理论框架的“发现的科学”,并不采用传统的归纳方法去追求事物之间的因果关系,而是通过算法和模型去探讨数据之间的相关性。可以认为,数据驱动的研究范式克服了假设驱动的研究范式对决定论和因果关系的偏执,进而形成了开放式研究的认识论新体系。
[1]埃尔温·薛定谔. 生命是什么. 罗来鸥,罗辽复,译. 湖南科学技术出版社,长沙:2003, P8.
[2]Shin Y, Brangwynne CP. Liquid phase condensation in cell physiology and disease. Science, 2018, 357,eaaf4382.
[3] Taniguchi Y, Choi PJ, Li GW, et al. Quantifying E. coli proteome and transcriptome with single-molecule sensitivity in single cells. Science, 2010, 329:533-538.
[4] Jiang L, Wang M, Lin S, et al. A quantitative proteome map of the human body. Cell, 2020, 183:1–15.
[5] Grün D. Revealing dynamics of gene expression variability in cell state space. Nature Methods, 2020, 17:45-49.
[6] Weinberg R. Point: Hypotheses first. Nature, 2010, 464:678.
[7] National Research Council. Toward precision medicine: building a knowledge network for biomedical research and a new taxonomy of disease.2011, http://www.nap.edu/catalog/13284/
[8] A. F. 查尔默斯. 科学究竟是什么?鲁旭东译. 商务印书馆,北京. 2011, P31.
[9] Golub T. Counterpoint: data first. Nature, 2010,464:679.
[10] Regev A, Teichmann SA, Lander ES, et al. The Human Cell Atlas. eLife 2017; 6:e27041.
原题: 后基因组时代的科学观
来源:吾家睿见 2020-12-26