数学在分子生物学中不合理的有效性

重点摘要:

· 基因是生物的基本蓝图,存于 DNA 的碱基序列中,再靠着“遗传密码”直接转译成蛋白质的氨基酸序列,蛋白质于是自发折叠成天然的三维结构。序列和空间结构都可用数学的语言描述。

· 分子生物学运用序列比对和结构叠合这两项数学工具,试图描述并分类序列或结构。希望以演化做为指导原则,描述并预测蛋白质的序列、结构、功能彼此之间的内在关系。

· 从氨基酸序列决定蛋白质的三维结构是大自然的演算法,但受制于生物学的特性,从物化原理预测蛋白质结构并不容易。这个热门又重要的问题,应该从基本原理做起,或采用实用而有效的预测,考验数学的应用能耐。

撰文 雷斯克(Arthur M. Lesk,美国普林斯顿大学的物理与物理化学博士)

译者 | 周树静(台湾数学科普译者)

我的文章标题仿效威格纳的知名文章《数学在自然科学中不合理的有效性》。当然,其中的讽刺之处在物理学与分子生物学正好相反。在物理学,数学显然是有效的,物理学家所立足的巨人肩膀许多是数学家,令人意外的是威格纳竟然说这是不合理的。但在分子生物学里,数学的合适角色并不明显,与物理学相比,认为数学在生物学中有效才不合理的说法恐怕更有道理。当然,许多计算分子生物学的常用工具,例如在资料库中搜寻与给定的探针序列(probe sequence)相近序列的工具,其基础就是数学和电脑科学。但是对生命过程的终极理解是否能以数学语言来表示-就像物理定律以对称概念为基础,还是采用传统的描述性、“轶闻式”的生物学语言,这一点依旧悬而未决。

为什么怀疑数学在生物学的有效性是合理的?生命系统所观察的性质,来自下列因素的组合

物理和化学定律

演化的机制

历史性的偶然因素

我们很难区辨这些因素,它们彼此之间的创造性张力遍布于我们的研究。许多物理定律在描述自然世界时(包括生命系统),需要具体说明起始条件和最终条件之间的关系。但在生物学中,所有可能起始条件的组合复杂性造成困难,历史偶然因素的巨大角色阻碍了研究,也让我们更谨慎。就算物理和化学基本定律的简单结果足以描述生命过程的细节,我们却不见得可以发现这些过程,因为我们所能观察的要复杂得多,因此排除了简洁的理想化方法,而观察到的特性又取决于起始条件的选择,这些条件又来自庞大且纷杂的各种可能性。在生物学里,苹果可不只是掉到头上而已。

计算分子生物学在研究什么

不过我们的研究对象,至少形式上可以尝试着应用数学,包括

基因的 DNA 序列

蛋白质的氨基酸序列

蛋白质结构

蛋白质功能

读者应该都听过的基因组计划(genome projects),希望能确定有机体 DNA 的完整序列-生物的蓝图。基因组的 DNA 序列包含生物出生、发育、成长、死亡所需的所有资讯。在 1996 年完成酵母菌基因组的定序后,我们对酵母细胞所知的已经和酵母细胞本身一样,这样说并不像初听那么倨傲,因为我们真的掌握了所有的资讯。无可否认,人类不像酵母菌在解释这些资讯时那么有效率,但是我们的确拥有完备的蓝图组合。不过蓝图只能静态描述结构与蛋白质的活性,我们仍然需要扩大观察,在有机体的时空架构里,蛋白质的表现与功能的整体性。这些资料的汇集称为“蛋白质组计划”(proteome project),在后基因组时代正逐渐取得重要性。

基因定序测量的进展速度很快,并且还在加速中。1998 年,隐杆线虫(Caenorhabditis elegans)的 DNA 已经完成定序( 碱基),1999 年与 2000 年, 果蝇( 碱基)和人类( 碱基)基因组也可能完成定序【译注:果蝇 2000 年完成定序,人类基因组号称 2003 年完成定序】,另外还有许多其他大大小小的生物。路易十五可以说:“朕死之后,管他巨浪滔天。” 相较之下,诺亚不会这样说;我们也不能不管。

基因序列与我们研究的蛋白质结构牵连甚深又很重要。在分子层次,基因的 DNA 序列会转译成蛋白质的氨基酸序列,蛋白质的氨基酸序列再决定蛋白质的三维结构,蛋白质结构又决定了蛋白质的功能(图一)。明确的三维结构是蛋白质功能的基础,因为其中所需的相互作用,需要将分子的不同部位以精确的空间关系配置在一起。到最后,蛋白质功能又会回馈到基因序列,藉由天择的演化完成整个循环。

图一:从基因可以读出的资讯。基因是生物的基本蓝图,包含在 DNA 的结构中(左),左图是 DNA 的双螺旋,包含了两条相互缠绕的链串,图中各自用细线和粗线呈现。螺旋中的“楼梯效应”是由一组称为“碱基”的化学单位构成,碱基一共有四种:A、T、G、C。眼尖的读者可能注意到这些碱基(梯板)的形状不同,两螺旋同层的碱基相互作用,而且遵守严格的互补规则:A 和 T 对应;G 和 C 对应。于是,每一条链串都具有足够的资讯,可以导引另一条的合成。逻辑上来说,所谓复制 DNA 就是将两链解开,分开的链串再各自合成另一半。基因中的碱基序列,靠着称为“遗传密码”的直接转译表,转译成蛋白质的氨基酸序列(中)。基因的讯息使用 A、T、G、C 这四个字母书写,蛋白质是包含一条化学残基(residue)序列的聚合物,每个位置都是 20 种氨基酸其中之一所构成,记为 A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y。要确定这 20 个氨基酸,需要两个以上的碱基加上一个对演化很重要的冗余码,事实上 DNA 序列是每三个碱基一读(另有三组三碱基组保留给结束讯号“止”(End-of-file)) 。蛋白质会自发折叠成天然有活性的三维结构(右),这是大自然从一维基因序列跃入我们居住的三维世界的关键。图例取自一种海蛇毒素,是用 X 光晶体学已决定的一种蛋白质结构。每个基因具有一个碱基序列,先转译成蛋白质氨基酸序列,再决定其三维结构,最后是此蛋白质的功能。

在电脑中,DNA 序列可用字串表示,这是一维的物件。基因作为基因组序列的子字串,以近乎普适(universal)的密码表转译成蛋白质的氨基酸序列。蛋白质氨基酸序列也可用一维的字串表示。然后蛋白质会自发的折叠成唯一且“自然”的三维结构(蛋白质会因加热导致三维结构破坏而变性,但冷却后它又会恢复原先的形式,就好像记忆金属一样。)这个蛋白质自发折叠的表现,正是让大自然从一维基因序列得以一举入我们居住的三维世界的关键。

计算分子生物学的目标

我们的目标是什么?首先是描述序列之间与结构之间的相似与差异,并做分类。序列空间的拓朴是什么?结构空间的拓朴呢?蛋白质功能的空间呢?这些空间彼此的映射又是什么?我们希望能够描述与预测,序列、结构、功能之间的内在关系,并以演化做为组织的原理。

要怎么对付这些问题呢?布列纳(Sydney Brenner)曾经感叹说:“生物学的麻烦在于缺乏谐和振子(harmonic oscillator)。” 他的意思是生物学不像物理学,就算透过理想化,还是避免不了复杂性。谐和振子是物理中的简单问题,可以用很多方法精确求解,不但可以确切应用于某些问题,对其他问题也是有用的逼近,谐和振子在物理学是许多新方法的传统测试台。事实上,在计算分子生物学中,也有两个布列纳意义的“谐和振子”:序列比对(sequence alignment)与结构叠合(structure superposition),这两个可以精确和有效执行的操作,在分子生物学里是众多序列/结构关系的分析基础。当然,现实世界的不谐和并不令人意外,但即便如此,从这些简单的情况还是发展出许多有价值的工具。

但是,工具只能提供答案而非问题。这个领域的研究仍然得持续依赖人类科学家与资料的互动,并辅以数学和电脑方法。

BOX 杰出数学家与生物学家盖尔范特(I.M. Gelfand)激烈的否认他是数理生物学家,针对威格纳原理:数学在物理学中不合理的有效性,他反过来说:数学在生物科学不合理的无效性。有些他的跟随者称之为威格纳/盖尔范特原理。

序列与比对

基因和蛋白质序列都具有字串的形式。基因序列的字母是 A, T, G, C,依序表示腺嘌呤(Adenine)、胸腺嘧啶(Thymine)、鸟嘌呤(Guanine)、胞嘧啶(Cytosine)的核苷酸符号。蛋白质序列则有 20 个字母,分别表示 20 种标准氨基酸。

两条字串的比对(alignment)就是决定两字串字母的有意义对应【译注:在分子生物学中,alignment 有“比对”和“排序”两种常用译法,鉴于本文之数学模型,比对较易望文生义,故从之】,例如底下两字串:gctgaac 和 ctataatc

两种可能的比对是

要如何判定这两组或更多组比对,哪一组才是最佳的比对呢?我们可以为字串设计一种度量(metric),定义两组字串的距离吗?测量字串是否相近的测量方式包括:

汉明距(Hamming distance):两等长字串的距离定义为相应两字母不一致的位置总数。

列文史坦距(Levenshtein distance):对两可能不等长的字串,从一字串透过“编辑操作”变成另一字串的最小操作次数,其中编辑操作包括删除、插入,以及更换某一字母。一连串的编辑操作可以得到唯一的比对字串,但反之不真。

在分子生物学的情况,已知基因或蛋白质序列会发生插入与删除,因此不能使用汉明距。而且也有证据显示某些变化比其他的情况更常发生,因此就算列文史坦距也必须基于演化模型做推广,对不同的编辑操作做差异性的加权。例如突变比想像中的保守,如果蛋白质中的氨基酸要更换,换成大小相近或物化性质相似氨基酸的情况,可能性大于不相似近的氨基酸。为了反映这个事实,本来只是对编辑操作离散计数的作法,就必须代之以让序列中每一变化都指定某实数值“成本”的想法。

另外的证据显示,序列中的空隙成本不像列文史坦模型,并不与空隙长度成正比。然而要如何适当选择空隙长度的函数做为空隙加权的方式却相当棘手。许多计算法【译注:scheme 基本上是数值或计算数学对某问题的数值解法,通常是整合了许多计算法在内的多重组合,目前似乎常译成很难望文生义的“格式”,暂译成“计算法”】使用线性函数,以  表示空隙起始的固定成本,再用较小的参数  于空隙大小,使空隙成本形如 。已经有演算法可以计算由一字串转成另一字串时,编辑操作成本和的最小情况,因此可以达成最佳的字串比对。

字串比对最佳化的形式叙述可以说明如下:给定两个字串  和 ,其中 、 都是字母集  的元素。令 。所谓编辑操作的序列指的是一个有序字对  所成的集合,其中 ,个别的编辑操作包括:

:表示用  取代

:表示从  删除

:表示在  插入

成本函数是编辑操作的函数:

是突变的成本

或  是删除或插入的成本。

而  和  之间的最短加权距离是

其中 ,而极小值是比较所有由  转换成  的编辑操作序列而得到的。如果  在  上是度量,那么  在  字母所形成的字串空间上也是度量。(以上问题的叙述预设空隙成本和空隙长度无关;更实际的空隙加权计算法则是推广的情况。)

问题是我们希望找到  以及符合这个条件的单个或更多序列比对,能在  时间内解决此问题的算法久为人知【译注: 记号表示计算法的渐近时间复杂度,如本例  表示当 、 很大时,所需要的计算时间大约和  成正比】,并且已经运用于很多问题如文本编辑、语音识别、鸟语分析等 [2]。将它介绍到分子生物学的是尼德曼(Saul Needleman)与温煦(Christian Wunsch)的重要论文 [3]。

这个演算法有几个值得关注的特色:

它得到的是绝对最小值(记得这是计算分子生物学两大“谐和振子”的第一个),这个方法保证我们不会陷在局部极小值里。

以上是好消息,坏消息是如果想解释得到的结果并不简单。虽然从最佳比对得到的编辑操作序列或许对应到实际的演化途径,但却无法证明。编辑操作距离越大,合理的演化途径就会越多。不但最佳比对可能不唯一,而且还可能有很多得分很接近最佳比对的次佳选择。例如,菲奇(Walter Fitch)和史密斯(Temple Smith)研究鸡的  和  血红蛋白基因时 [4],就找到 17 组最佳比对,其中一组符合已知血红蛋白结构的比对,但得分在最佳比对 5% 范围内的超过 1000 组之多。

双序列比对的问题

已知在蛋白质演化时,氨基酸序列分歧的速度远比结构的分歧快。在许多情况中,我们察觉到两个蛋白质结构间存在演化关系,但基因序列或蛋白质序列却侦测不出什么相近性。原因是这样:尽管基因可以在 DNA 序列空间中探索前进,但是天择却会在结构的变化上踩煞车,这是为了维持蛋白质的功能。遗传密码的冗余特性,像是多个三碱基翻译成相同的氨基酸;许多单碱基改变转换的氨基酸仍保留类似的物化性质,都是为了缓解序列变化所导致的结构改变。

即使在序列层次可以侦测相近性,但对关系疏远的蛋白质,双序列的最佳比对结果却经常是错误的,这是从作为最后裁决的结构比较而得知的。然而,如果能找到许多相关的序列,那么多重序列比对将比双序列比对给出更有意义与准确的结果。为什么多重比对能提升序列的资讯?因为它能显现被保存的模式。个别位置变化的程度与特性,是序列的不同区域在结构或功能角色上的重要指标(见图二)。例如,在一整个蛋白质家族中都能够保存下来的残基(residue)【译注:残基:大分子中的某一部位。当氨基酸形成巨大的蛋白质后,这些氨基酸就构成蛋白质的残基】,经常与蛋白质功能相涉,或者至少经常与蛋白质结构有密切关系。相反的,经常发生插入或删除的区域,则通常对应到结构的外围部分。

图二:是所谓 ETS 区域的蛋白质家族的部分序列的多重序列比对。每一列来自一蛋白质的氨基酸序列,这个字母序列的每个字母表示一个氨基酸。垂直栏位的字母是这些家族蛋白质在该位置的氨基酸,上下观察可以看出一些模式。例如每一条序列的第三个都是白氨酸(L 即 leucine),这表示有某种结构或功能上的限制,阻碍演化在这个位置产生变异。表中最后一列的大写字母表示所有位置都不变的残基,只有一位置不同的则以小写表示。注意各栏变化的分布并不均匀。如果保留残基的周期性(3、4、8)提示这些蛋白质内有螺旋结构(这是真确的),其他还有些藏得更深的模式,需要计算分析才能确认。这些模式包括不同位置氨基酸分布的相关性,例如左起第四栏只有最后两列是酪氨酸(Y 即 tyrosine),其他都是色氨酸(W 即 tryptophan)。此栏的变化和右起第四栏与第五栏有很高的相关性。一般相信(至少是希望)像这类序列表上不同位置变化模式的相关性,可以提供线索,指出三维结构中发生相互作用的区位(site)。不幸的是这些信号很微弱。

(说起蛋白质的结构   一条序列忸忸怩怩   两条序列嘻嘻暗笑   更多序列大声咆哮)

不过如果序列讯息只能对蛋白质结构间接一瞥,为什么不直接处理结构呢?因为已知的序列资料量远远超过结构的资料。目前有大约二十种生物的基因已经完全定序,给出完整的基因序列,但是其中只有极少数的基因,我们知道对应蛋白质的结构。

蛋白质结构的分析

分析蛋白质这么复杂的分子结构,首要的问题就是结构呈现的方法。目前已经发展出许多电脑绘图技术能简化的呈现蛋白质。图三以一个小蛋白质分子为例,显示要诠释完整细节、如实呈现的难处,以及一些利用程式简化的图形,让人们得以见到这些结构。活跃的“家庭工业”(也就是很多素人)提出许多简化呈现的方法,最后被纳入各种绘图套装软件。熟练的分子画家利用它们,以精校程度的细节,从不同角度呈现分子的结构。这些图形被上色并加上花俏的阴影效果后(考虑可见光的波长和分子的大小,这当然不真实),装饰了许多期刊、海报,甚至 T 恤和马克杯。

图三:蛋白质具有相当复杂的结构,必须发展特定的工具来呈现。本图以三种不同程度的简化方式,呈现一种较小的蛋白质,称为酰基磷酸酯酶(Acylphosphatase)。上图:完备的骨骼模型(skeletal model),主链画得比侧链粗。中图:链的路径以光滑的内插曲线呈现,其中 V 型记号标记链的走向。下图:在此略图中,以圆柱表示螺旋,以箭头表示褶板长串。图中的立体是半透明的,并用虚线表示被遮住的部分。试着将相邻两图叠合,可以用立体视觉观看(不要看太久) 。

已知的蛋白质结构有一万种【译注:到 2020 年已经超过十五万种】,其空间模式有非常大的差异。针对卢瑟福(Ernest Rutherford)的评价:“所有科学除了物理学以外,都是集邮”,我现在的回答是蛋白质结构的研究结合了两者的优点。我们既拥有壮观的多样性,但也相信存在基础性的统一原理。

每个蛋白质有一条线状(也就是不分岔)重复的聚合物主链,每隔固定间隔有一些不同的氨基酸侧链接在上面。所以蛋白质看起来就像圣诞树上的灯线,电线就是重复的主链,而五颜六色的灯光序列则是个别侧链的序列。

主链是一条由不同侧链因相靠近时之相互作用而平衡稳定后所得的空间曲线。这条主链在图三的中图表现的最明显。图前有两段螺旋(就像传统的理髮店螺纹招牌),其螺旋轴几乎是铅直的,这是两种局部区域标准结构之一,另一种标准结构是延伸的褶板(sheet)长串,图三的蛋白质有四条褶板串,方向也几乎都是铅直的。这些褶板串是靠侧面的交互作用来维持结构。图三的底图,螺旋和褶板串是用“示意图”呈现的:螺旋是圆柱体,褶板串是大箭头。至于图三的上图则是最具细节的结构图,包括主链和侧链,而其中粗细的对比显示,就算是小型的蛋白质,简化作图对制作视觉可理解的图形仍然很重要。

分析新结构的第一步是找出螺旋和褶板的区域,这是画出图三中图与下图所需的资讯。蛋白质中最常见的螺旋类型每个回旋包含 3.6 个残基。因此如果在氨基酸序列中显出这种周期性的特点,就可能是螺旋区域。

结构的叠合

就像比对序列一样,分析结构的基本问题是设计并计算结构相近度的测量方式。假设将结构用坐标来呈现。

就和序列的情况一样,这里也有比对的问题。试比较在计算化学中出现的三个相关问题:

(1) 测量对应已知的两组原子的相近度:

这和序列问题的汉明距类似,这个情况可以精确有效的解决,这就是计算分子生物学的第二个“谐和振子”。

(2) 测量原子对应未知,但分子结构给出对应的条件(尤指残基依线性顺序)的相近度:

且遵守以下限制条件

这可想成对应列文史坦距或含空隙的序列比对。

(3)测量原子对应未知,也无对应的限制条件的相近度:

这个问题出现于下述重要情况:假设有两个或多个分子具有类似的生物效应,例如共同的药物活性。这通常表示这些结构共享一小区的原子组合,可以解释这个生物效应,称为药效团(pharmacophore)。想找出药效团,就要从这两个或多个分子找出拥有类似结构的最大区域。

问题 (2) 和 (3) 都需要点对点做比对,只与坐标有关的比对方法称为结构比对(structural alignment)。在结构比对里,相对应的残基被视为相同,因为它们在整体结构中占据同样的位置。人们必须思索如何抽取出最大的共同子结构,并以此作为比对的基础(这就像字母 B 和 R 的最大共同子结构是 P),而在最大共同子结构之外的残基则无法比对。这是双序列比对无法侦测到的事实,因此是该方法的弱点。

对这三个问题最一般的解决方法,是奠基于问题 (1) 的解,也就是已知对应  的情况。两个全等的物件可以透过刚性平移与旋转相互叠合,因此两个相近的物件也能用旋转和平移达成逼近(approximate)的叠合。如果考虑的物件是有序的点集合,一种相近度的度量方式是其最佳叠合的均方根(root-mean-square)标准差 :

其中  是恰当的旋转矩阵,而  则是平移向量。在最佳叠合时,这两个点集合的平均位置(即俗称的重心)会重合。寻找正确的相对方向的问题称为“正交普洛克拉堤斯问题”(orthogornal procrustes problem),已知有以线性代数标准技巧为基础的解法。[5]

解决最大共同子结构的问题提供了度量结构的基础,它容许对局部与微弱相近度的侦测,并可导出蛋白质结构全体的分类树。

最大共同子结构的计算方法奠基于两种呈现结构的方式:

坐标列表 ,;

距离矩阵 。

采取距离矩阵的最大好处是它提供了和原点与方向无关的结构呈现方式,而且两距离矩阵差的最大分量 ,提供了测量两个已比对点集合差异的方法。

坐标和距离矩阵在呈现点集合时近乎相等。从坐标资料计算距离矩阵简单到不行,然而是否能从距离矩阵精确又直接的复原坐标资讯就不是那么明显,不过已知这能用对角化(diagonalization)的方法解决 [6],更确实的说法是,从距离矩阵可以得出原先的结构以及其镜像异构物(enantiomorphs,例如左右两手的手套互为镜像异构物),不过这点含糊对分子生物学的应用并不严重。另外位置和方向的资讯当然也消失了。

计算 (2) 和 (3) 类型的最大共同子结构,最大的困难是各种比对可能方式的组合复杂度,就这个问题,以距离矩阵为基础的演算法相对于坐标资料的方法要更有效率。另外以螺旋和褶板等结构要素为基础的相关矩阵表现,也比光是运用坐标资料,可以得到蛋白质折叠模式更简洁的呈现方式。抽取最大共同子矩阵的方法显露具有共同折叠模式的最大子结构。这样的矩阵表现也容许我们计数所有可能的蛋白质折叠模式。经验估计所有自然蛋白质的折叠模式少于 1000 种。完全的计数让我们可以检视大自然的选择,尝试去分辨历史的偶然,抑或是结构上的必然。

蛋白质的演化

蛋白质演化探讨在相关物种里,相对应的氨基酸序列和蛋白质结构如何不同。这是能提供许多资讯的研究,帮助理解序列和结构的关系。虽然氨基酸序列包含了所有形成蛋白质结构所需的资讯,但我们还不知道如何从序列推演出结构,姑且称之为蛋白质折叠问题的“整体性形式”(integral form,“积分形式”),这个问题还未解决。另外在研究蛋白质演化时,我们可以观察到序列的变化如何反映在结构的变化上,这个问题应该比较容易理解,称为蛋白质折叠问题的“差异化形式”(differential form,“微分形式”)。

主题

蛋白质折叠

蛋白质演化

观察

序列得出结构

序列变化得出结构变化

问题的形式

整体性形式

差异化形式

问题的状态

未解

未解但应该比较简单

由简单的论证知道,结构近乎序列的“连续”函数,至少对自然演化的序列和结构是如此。如果有种蛋白质,它的任何突变(氨基酸序列的任何变化)都导致不稳定的结构,那么靠着大自然的演化过程根本无法到达这种蛋白质,因为它没有稳定的前身(precursor),这表示来自大自然的结构是稳健的(robust)。大部分序列的小变化并不会改变结构(这对人造蛋白质结构并不适用)。

确实,自然的蛋白质如果序列相似,结构也相近。在人工合成胰岛素上市之前,使用猪胰岛素是治疗人类糖尿病的有效临床疗法,即使猪和人类胰岛素的氨基酸序列不尽相同。根据这种对相近性的信心,提供了一种由已知蛋白质结构预测相近蛋白质结构的方法,称为同源建模(homology modeling)。不过随着演化的进行,序列和结构终究会益发分歧。图四显示了两个距离很远的蛋白质:色素体蓝素(plastocyanin)和天青蛋白(azurin),其中两者右侧区域都包含两条面对面包在一起的褶板,这是保存下来的结构“核心”,至于左侧细长的螺旋区域,则显现完全不同的构形(conformation)。

图四:在演化的过程里,基因序列会累积突变,导致蛋白质序列和结构益发分歧。本图呈现两个有关的电子传递(electron-transport)蛋白质:白杨叶色素体蓝素与细菌的天青蛋白。图中右半边的结构,包含实线或虚线像缎带一样的褶板区域,以及一处铜结合位(copper binding site), 这些是在演化时保留不变的部分。至于左半边的结构则有很根本的分歧。

蛋白质结构预测

大自然有一个演算法,可以单从蛋白质的氨基酸序列,就能明确得到三维结构,照理说我们可以发现这个演算法。如此一来,就能够预测人类或其他基因组基因序列中与生俱来的蛋白质结构,并应用于实用的问题如药物设计。但是预测蛋白质结构是困难的问题,人们已经尝试过很多想法,其中颇多宣称有进展。不过直到现在,除非先给定某个很接近的蛋白质,不然还没有计算方法可以从氨基酸序列一致的预测出蛋白质结构,即使只考虑定性预测也做不到。

假设给定一个新蛋白质的氨基酸序列,请你预测它的结构,你大概能预测什么?预测所能给出的最完备资讯,莫过于该蛋白质模型的三维坐标,这是 3-D 预测。野心没那么大的预测,是指出螺旋与褶板在序列中发生的部位,此即 1-D 预测。介于这两类预测之间,是超越 1-D 这种二级结构预测,但只给出折叠模式一般空间配置的定性资讯,这姑且称为 2-D 预测。

预测蛋白质结构时你需要怎样的资讯?最终目标是单纯的“从头做起”(ab initio),单单只运用到目标蛋白质的氨基酸序列,毕竟大自然就是这样运作的,蛋白质在折叠前并没有先上网搜寻资料库。但是我们不妨试试,而且运用资料库资讯,从已知结构去指认目标蛋白质的折叠方式也获得一些成功。这个问题称为折叠辨识(fold recognition)。当然这个方法成功的前提是,和目标蛋白质折叠方式相同的蛋白质结构已经在你的资料库里面。

谈到你必须让谁满意?下列名单大略以难度递减的次序排列。大部分科学家都接受“经费审核单位”是恰当的目标!

你必须让谁满意?

1. 结晶学家

2. 核磁共振光谱学家

3. 经费审核单位

4. 论文审阅人

5. 同事

6. 你的母亲

说实在的,要如何说服别人你有一个可以成功预测蛋白质结构的方法?有两种宣告原则上是不可测试的。一种是能够预测已知的蛋白质结构,另一种是你预测的蛋白质结构,不但目前实验所得的结构未知,而且可能很久以后还是不知道。我们得走在“已知”与“很久都不可知”两者之间,协调结构预测与进行中的结构测定才行。

为了让这项活动更有规矩,能够鼓励真正有进展的人,拒斥那些坚持他们“已经解出蛋白质结构预测问题”的人,莫耳特(John Moult)于是提出组织盲检试验(blind test)的想法:正用实验解出蛋白质结构的科学家公开他们的氨基酸序列,但在公定截止日期前必须保持该结构的秘密,所有相信自己掌握蛋白质预测方法的人,在这个日期前要送入他们的预测,最后再将这些结构与实验结果比较,通常是几家欢乐万家愁的局面。这个想法最后发展成两年一次的 CASP(Critical Assessment of Structure Prediction,结构预测的关键评量)计划。

预测结构的方法分成两大类:归纳法和演绎法。归纳法直接使用序列和结构的资料库。而演绎法是真正的“从头开始”,就像裸身登上热带荒岛一样,试图只用物理、化学和生物的一般原理预测蛋白质结构,却不明显参考已知的序列和结构。当然发展“从头做起”的方法时,势必会依赖已知序列和结构的研究知识。差别是从这些研究所得到的理解,将被提炼成一般法则,预测时不再从资料库查询特定的资讯。

“从头做起”法又可分为两类,我称之为“自然型”(Nature)与“推调型”(Nudger)。自然型的路数寻求理解大自然的折叠过程,再依循或模仿它。推调型的方法允许任何能够让蛋白质链放到恰当构形的程序,就算这个程序并不自然,甚至违反物理原理也无所谓。

有证据显示天择不但形塑蛋白质最终的天然状态,也作用在折叠的途径上。因为蛋白质不只是演化成稳定有效的构形,它还必须从有许多随机混合构形可能的非折叠状态,在合理的时间内折叠到这个特定构形。基于在溶液中原子移动速率的简单计算,发现如果要穷尽可能的构形,时间上会来不及到相差好个几数量级(这有时称为列文萨悖论(Levinthal’s paradox))。虽然理论上可能,但没有证据显示折叠的途径会影响最后的状态。如果存在其他的折叠状态,但途径的演化促使其中之一发生,那我们这些预言者就必须选择“自然型”而非“推调型”的方法。

结构预测的困难何在?我们认为自己理解让天然蛋白质构形稳定的作用力,甚至可以清楚写出构形的坐标能量函数,需要做的只是极小化。然而,重要的是要意识到-用热力学的术语来说-蛋白质只是边缘稳定的(marginally stable)。事实上,折叠蛋白质的构形能(conformational energy) 与许多对照项的构形能只有很小的差别,这是数值分析的恶梦。

其中的困难是因为能量函数写得不够精确?还是这个函数太复杂以致于无法最佳化?一个测试的方式,是从蛋白质的天然状态出发,尝试极小化蛋白质的构形能量函数。在起点附近这样的计算的确会收敛到最小能量构形,这表示这个能量函数至少在正确答案的附近是适合的(不令人意外,因为这个函数的定义,本来就为了重现已知天然状态做过参数调整。)不过这还不够。在最小值附近正确的函数,并不能在构形空间中提供完整的轨迹,让程式能从任意起点开始找到整体最小值。

这里有两个问题。首先,许多稳定蛋白质的作用力是短距作用力,就算知道确切的能量函数,如果从随机延伸松弛的构形开始,根本没有长距力可以驱使系统转变到正确的结构。其次,就算能够折叠到紧密的状态,坐标能量函数的地景(landscape)包含许多局部极小值,彼此隔着高能量障壁,这些极小值中许多都是天然态的候选者。实际的蛋白质能克服这两个问题,是结合了 (1) 大量的“平行处理”(parallel processing),所有的残基同时探索它们局部的构形空间,而且 (2) 演化的折叠途径引领整个系统走向正确答案。我们的电脑无法平行处理;我们的能量函数无法说明长距的折叠途径;我们的演算法很难找到复杂、多变数、非线性函数的最小值(需要的时候,谐和振子跑哪去了?!)。

基于这些先验方法的困难,导致我们发展先前提过的,以已知序列和结构为基础的经验方法。运用资料库的预测方法有 (1) 同源建模法:从相近蛋白质的已知结构来预测目标结构;(2) 折叠辨识法:评断氨基酸序列与已知蛋白质折叠模式的相容度。这些方法的威力日益强大,部分但并非全部可以归功于资料库的增长。如果已知的序列和结构越多,新蛋白质当然越可能与已知的资料近似。相较之下,“从头开始”法的改善就缓慢得多,最近一次 CASP 竞赛之后,有个心不甘情不愿的评论说,这个方法至少“不再保证失败。” 悲观的人或许会预测,资料库的增长终究意味着以资讯为基础的方法,将为大部分的问题提供实用的解答,而那些对发展“从头开始”法感兴趣或支持的声浪终将式微。如果最有趣的生物计算想法从此对计算生物学关上大门,这真是令人遗憾。

译后记

本文经授权转载自微信公众号“数理人文”,原文刊登于 The Mathematical Intelligencer 22 (2000)。作者改写自 1998 年在牛顿数学科学研究院(Isaac Newton Institute for Mathematical Sciences)“基因组计划脉络下的生物分子功能与演化”会议的演讲。

(0)

相关推荐