“生化版”阿尔法狗来了,生命密码的马奇诺防线崩了
2009年诺贝尔化学奖得主拉马克里希南表示:“这是蛋白质折叠的惊人进展,它解决了已经困扰生物学家50多年的问题,比大家预期的要早几十年。它将以多种方式从根本上改变生物学研究。”
阿尔法狗“生化版”来了,这次它出手的是蛋白质结构预测领域。这个版本名为“阿尔法折叠”(AlphaFold),同样来自谷歌旗下的“深度思维”(DeepMind)团队。
在刚刚结束的国际蛋白质结构预测竞赛(CASP)中,AlphaFold取得了革命性突破。在CASP的一系列测试中,AlphaFold获得了92.4分,在最具挑战的自由建模蛋白质测试中也获得87分。
CASP的打分机制是全局距离测试(GDT),以0到100分来衡量,其意思是,设定阈值内,预测结果正确的百分比。按照业内观点,如果竞赛成绩达到90分,其预测结果就可以媲美实验室结果了。
2005年,《科学》杂志在创刊125周年之际,将预测蛋白质结构列为125个最具挑战性的科学问题之一。
多年来,科学家只能通过核磁共振、X射线和冷冻电镜技术来确定蛋白质结构。他们需要反复试验,经过持续数年的艰辛工作才能得到结果。同时这些实验设备极为昂贵,造价高达数百万美元。
德国普朗克发展生物学研究所科学家安德烈·卢帕斯(Andrei Lupas)花了10年来破解一种细菌膜蛋白,穷尽已有工具均无果,而AlphaFold仅花了半个小时就得到了结果。
《科学》杂志引述卢帕斯看法称:“他们不可能对此作弊,我不知道他们是怎么做到的。”
DeepMind博客上的一则赞誉来自拉马克里希南(Venki Ramakrishnan,他是皇家学会会长、2009年诺贝尔化学奖得主)。拉马克里希南表示:“这是蛋白质折叠的惊人进展,它解决了已经困扰生物学家50多年的问题,比大家预期的要早几十年。它将以多种方式从根本上改变生物学研究。”
01////
预测结构有多难
经过数亿年进化,蛋白质成为已知结构最为复杂、功能最为强大的化学分子。这个复杂的大分子由氨基酸链构成,就像珠子一样排列成长链。这条长链会发生折叠,指的是氨基酸串打结、卷曲成三维结构,使其发挥功能的过程。在每条蛋白质的长链上,每个氨基酸的位置决定了精确的三维结构。
1972年,诺贝尔化学奖得主克里斯蒂安·安芬森(Christian B. Anfinsen)在获奖感言中提出一个假设:理论上,氨基酸序列应该完全决定蛋白质的结构。此后近半个世纪,科学家们一直希望基于氨基酸序列来计算蛋白质的三维结构。
识别蛋白质的结构极为困难,每个蛋白质理论上存在的可能构象都是天文数字。1969年,美国分子生物学家利文索尔(Cyrus Levinthal)指出,未折叠的多肽链有天文数量的自由度,比如一个由100个氨基酸残基组成的多肽,其理论上的错误构象多达3的198次方。而最大的蛋白质,其氨基酸数量可多达上万个。
然而每个蛋白质一般只形成一种稳定构象,通常是处于最低能量状态的构象。
对于人工智能而言,相比于其他机器读片或图案识别的工作,预测蛋白质三维结构的难度要高出多个等级。
从事蛋白质结构与功能预测的南开大学教授杨建益介绍,机器读片处理的基本上都是二维图像,但结构预测要解决的是从氨基酸一维序列到三维原子水平结构的构建问题。
预测蛋白质结构的复杂度与蛋白质大小有关。从事蛋白质设计研究的西湖大学研究员卢培龙说,蛋白质分子越大,复杂度越大,计算机预测的难度也就越大。
02////
为何是AlphaFold
AlphaFold的成绩建立在全球数百名研究人员工作基础上。DeepMind组建了一个由生物学家、物理学家和计算机科学家共同协作的团队。关于它如何工作的细节将会在本周的CASP会议上公布。
今年的国际蛋白质结构预测竞赛是第14届。大多数参赛者来自学术机构,不过微软和腾讯均有参加,其中有一半的参赛团队采用了深度学习技术。
参赛AI做蛋白质结构预测的前提是需要在17万种已知结构的蛋白质数据库中进行训练。如今已有1.8亿种蛋白质得到了氨基酸序列。
相较2018年的第13届竞赛,Deepmind这次花了数周时间就得到了预测结果。根据往届经验,这一过程往往要花好几个月。
他们很重要的一个策略是,研究人员将蛋白质结构看作空间图,残基是节点,接近的残基以边连接。
杨建益介绍,此次AlphaFold引入了注意力机制的深度学习,基于超强的硬件条件,相当于100-200个GPU(计算机图形处理器),并以蛋白质结构数据库中的所有结构数据来训练模型。其他实验室基本不具备这样优越的硬件条件。
此次AlphaFold充分利用了宏基因组数据,通过端到端直接预测结构模型,同时对模型的质量进行预测,以选出最优的结构模型。与2018年的AlphaFold相比,最新的AlphaFold还在预测过程中加入了同源模板的信息。
两年前的AlphaFold采用能量最小化的方式直接构建结构,后期也有不少团队开发了类似的方法,例如杨建益课题组和华盛顿大学计算生物学教授大卫·贝克(David Baker)实验室合作开发的trRosetta。然而最新的AlphaFold放弃了这类方法,而是把结构作为图直接预测(残基是图的顶点,距离近的残基通过边连接)。
《经济学人》杂志引述该项目负责人约翰·姜普(John Jumper)的看法称,2018年的AlphaFold已经达到了能力的极限。
卢培龙说,AlphaFold的突破是基于各方面综合的进展而得到的,包括之前领域内科学家们的成果,也包括软件、硬件的革新。
03////
全球竞赛
国际蛋白质结构预测竞赛(CASP)诞生于1994年,每两年举行一届。
每届CASP会历时数月。初始会发布共约100个目标蛋白或结构域,各参赛团队有几周时间提交结果。之后,一个独立的科学家团队会使用打分机制来评估这些预测。
评估人员对参赛团队是不知情的。卢帕斯说,AlphaFold是以“427组”的名义参赛的,但其成绩惊人,很多评估人员猜测该组是Deepmind团队。
CASP发起人、马里兰大学计算生物学家约翰·莫尔特(John Moult)表示,与上届CASP相比,今年各团队预测结构更加准确,但大部分进步都可以归功于AlphaFold。
如今这个竞赛成了蛋白质结构预测的金标准。最为重要的一点是,他们选择正在实验室进行解构的蛋白质作为试题,从而保证参赛者一直处于盲测中。
AlphaFold系统在本届竞赛中的平均成绩是92.4分,也就是说,其误差在1.6埃,大约是0.1纳米,即1个原子大小。在最具有挑战性的自由建模预测类别中,其成绩是87分。
同样的试题,其他团队最好成绩是75分,而AlphaFold系统能拿到90分。
04////
意义与待解问题
DeepMind是一家英国公司,位于伦敦,成立于2010年。2015年,它被谷歌收购。
过去10年,DeepMind是在学术界、科技行业和医疗界蔓延的一场大变革中的关键角色之一。除了众所周知的阿尔法狗(AlphaGo),DeepMind还涉足健康AI领域。AlphaFold的问世也是DeepMind发展的重要节点。
对于实验室解构难度大的蛋白质而言,计算机预测就显得尤为重要。比如膜蛋白对于理解信号跨膜传导尤为重要,但因其难以结晶而多年来未得破解。
预测蛋白质结构还有助于一些疾病的理解。如鉴定失活蛋白质并推断其相互作用方式。
这项工作还可推进药物开发,使其更加精确。不过,专家们还是提醒说,这项技术只会影响科学家们识别新药和分析疾病的漫长过程中的一小部分。目前尚不清楚DeepMind何时或如何与其他研究人员分享其技术。
原北京协和医学院教授、肿瘤药物开发者王晨光的观点是,目前有些“赞誉”是Alphafold尚难以承受的。蛋白质是一类大分子,承担细胞的多种功能,其三维结构并非单一结构,很多蛋白质“身段柔软”,“随遇而安”。
此外,蛋白质之间在细胞内形成复杂的网络,也和外界保持着密切的沟通,而这些都是通过蛋白质的修饰和相互作用实现的,那么这些对蛋白质动态三维结构预测的挑战就更大。
Deepmind在其博客中坦言,其预测的结果并非都是完美的,还有诸多问题待解。如多种蛋白质如何形成复合物,蛋白质与DNA、RNA和其他小分子的相互作用,以及如何确定所有氨基酸残基和侧链的精确位置。
在接受《经济学人》采访时,约翰·姜普博士说,目前的AlphaFold版本还有更大的发展空间,该软件的准确性还有待进一步提升。
杨建益对全现在说,这个工作只是技术上的进步,而非理论上的突破。不过使结构预测的准确率达到如此高的程度,确实是很大的进步,虽然不能说完全替代实验,但可以大大加速结构解析过程,可喜可贺。