颠覆生物学!AlphaFold成功预测蛋白质结构
谷歌旗下人工智能(AI)公司DeepMind的一个AI网络朝着解决生物学领域最大的挑战之一迈出了一大步,这里的挑战是:根据一个蛋白质的氨基酸序列来确定它的3D结构。
DeepMind的这个程序叫做“AlphaFold”,在名为“蛋白质结构预测关键评估”(CASP)的蛋白质结构预测双年赛上,击败了其他百来支团队。11月30日,赛事盘点大会(今年改为线上举办)开幕,公布了上述结果。
一个蛋白质的功能由它的3D结构决定。来源:DeepMind
“这非常了不起。”马里兰大学计算生物学家John Moult说。Moult在1994年联合创办了CASP,为的是提高准确预测蛋白质结构的计算方法。“从某种程度上说,问题解决了。”
能根据氨基酸序列准确预测蛋白质结构,将为生命科学和医药领域带来巨大好处。这将极大地增进我们对细胞基本构成的理解,让药物发现加速升级。
AlphaFold在上一届的CASP上摘得头魁——2018年,总部位于伦敦的DeepMind首次参赛。而在今年,DeepMind的深度学习网络更是一骑绝尘,用科学家的话说,其表现之惊人,或预示着生物学的一场革命。
“它改变了整个局面。”CASP的评委、马克斯·普朗克发育生物学研究所的演化生物学家Andrei Lupas说。AlphaFold帮他发现了困扰他实验室数十年的一种蛋白质的结构,他认为AlphaFold将改变他的工作方式,以及他要解决的问题。“它将改变医学,改变研究,改变生物工程,改变所有。”Lupas说。
有些时候,AlphaFold预测的结构与利用X射线晶体学和近几年的冷冻电镜(cryo-EM)等“金标准”实验方法所确定的结构几乎别无二致。科学家说,目前看来,AlphaFold还不能取代这些费力又昂贵的技术,但它将带来全新的研究生命的方式。
结构问题
蛋白质是生命的基石,决定着细胞里发生的一切。蛋白质如何工作以及它做些什么都是由它的3D结构决定的——“结构即功能”是分子生物学的一条公理。蛋白质似乎无需帮助就能成形,只需要遵循物理定律。
几十年来,实验室实验一直是获得良好的蛋白质结构的主要手段。蛋白质的首个完整结构是在上世纪50年代确定的,当时使用的技术拿X射线束照射结晶的蛋白质,衍射光转化为蛋白质的原子坐标。X射线晶体学贡献了大部分的蛋白质结构,但在过去十年里,冷冻电镜成为了许多结构生物学实验室的首选工具。
科学家一直想知道蛋白质的组分——一连串不同的氨基酸——是如何扭曲和折叠成其最终形状的。20世纪80、90年代用计算机预测蛋白质结构的早期尝试并不成功,研究人员说。已发表论文中的夸大其词在其他科学家用别的蛋白质尝试时很容易不攻自破。
为了让这方面的研究更加严谨一些,Moult创立了CASP。参赛团队需要预测的蛋白质的结构已经用实验方法进行了解析,但尚未公布。Moult认为这个实验(他没有称其为比赛)挤掉了水分,净化了整个领域。“你真的在判断哪些看起来有希望、哪些有用、哪些需要抛弃。”他说。
来源:DeepMind
DeepMind在2018年CASP13上的表现惊艳了领域内的不少科学家,这个领域本来一直是一小群学术团体的堡垒。不过,当时它的方法大体上与其他利用AI的团队差不多,伊利诺伊大学芝加哥分校的计算生物学家Jinbo Xu说。
AlphaFold的首次迭代将深度学习应用到结构和遗传数据上,用来预测一个蛋白质的氨基酸对之间的距离。第二步不需要AI,AlphaFold会用这一信息给出这个蛋白质应有结构的“共识”模型,DeepMind项目负责人John Jumper说。
团队尝试从这个方法展开,但最终碰壁了。于是他们换了个方向,Jumper说,他们设计了一种AI网络,其中包含决定蛋白质折叠的额外的物理和几何约束条件。他们还给它布置了一个更难的任务:没有让它预测氨基酸之间的关系,而是预测一段目标蛋白序列的最终结构。“这让整个系统复杂了不止一点。”Jumper说。
准确度惊人
每届CASP会持续好几个月。比赛中会定期给出目标蛋白质或蛋白质结构域——总共100个左右,让团队有几周的时间来提交他们预测的结构。随后,一支由独立科学家组成的团队利用各类指标对预测结果进行评估,这些指标主要判断团队预测的蛋白质与实验解析的结构有多相似。评审专家并不知道预测是谁做的。
AlphaFold的预测用被称为“427组”,多个预测达到了惊人的准确性,让它们脱颖而出,Lupas说。“我猜到了是AlphaFold,大部分人都猜到了。”他说。
AlphaFold的预测水平有高有低,但将近三分之二的预测结果都与实验结果在质量上不相上下。有些情况下,Moult说,我们甚至不知道AlphaFold的预测和实验结果之间的差异究竟是预测上的错误还是实验中的伪迹。
AlphaFold的预测结果与利用核磁共振光谱技术解析的实验结构匹配度较差,但这可能和原始数据转为模型的方式有关,Moult说。AlphaFold在模拟蛋白复合物/群组的单体结构方面也显困难,因为它们与其他蛋白质的相互作用会扭曲其形状。
整体来说,今年参赛团队的预测结果较上一届更加准确,但主要进步还是来自AlphaFold,Moult说。预测准确度以100分为满分,在难度中等的目标蛋白质中,其他团队的最好成绩一般是75分,而AlphaFold能拿到90分左右,Moult说。
约半数团队在摘要里概括他们的方法时都提到了“深度学习”,Moult说,说明了AI对该领域的影响力不容小觑。参加CASP14的大部分团队都有学术背景,但也有微软和腾讯这样的团队。
纽约哥伦比亚大学的计算生物学家Mohammed AlQuraishi也参加了CASP,他迫切想要了解AlphaFold在比赛中的表现细节,他准备在12月1日DeepMind团队演示他们的方法时,好好研究一下这个系统的工作方式。他说,虽然可能性不大,但也有可能是因为这次的目标蛋白质比平时简单,才让他们取得了如此好的成绩。强烈的直觉告诉AlQuraishi,AlphaFold将是颠覆性的。
“我想可以这么说,蛋白质结构预测领域将迎来一场颠覆。我怀疑许多人都会离开,因为该领域的核心问题已经解决了。”他说,“这是最高级别的突破,它绝对是我一生中看到的最重要的科学成果之一。”
DeepMind首席执行官Demis Hassabis说,公司正在了解生物学家对AlphaFold有何要求。来源:OLI SCARFF/AFP/Getty
加快预测蛋白质结构
AlphaFold的预测帮助确定了Lupas实验室多年来一直想要破解的一种细菌蛋白的结构。Lupas的团队此前收集了原始的X射线衍射数据,但将这些罗夏(Rorschach)墨迹一样的图案变成一种结构,需要一些关于蛋白质形状的信息。用于获得这些信息的技巧,以及其他预测工具都失败了。“427组的模型在半小时里就给出了我们的结构,而这个结构曾让我们花了十年时间,试遍了所有方法。”Lupas说。
DeepMind的联合创始人兼首席执行官Demis Hassabis说,公司计划让AlphaFold能为其他科学家所用。(DeepMind之前发表了关于第一版AlphaFold 的丰富细节,足以让其他科学家重复这个方法。)AlphaFold给出一个预测结构可能要几天,其中包括对蛋白质不同区域可信度的预测。“我们才开始了解生物学家想要什么。”Hassabis说,他认为药物发现和蛋白设计是潜在的应用方向。
2020年初,DeepMind公布了多个尚无实验确定的新冠病毒蛋白的结构预测结果。DeepMind对Orf3a蛋白的预测和后来用冷冻电镜确定的结构非常相似,加州大学伯克利分校的分子神经生物学家Stephen Brohawn说。Brohawn的团队在6月公布了这个结构。“他们之前的结果真的让人印象深刻。”他补充道。
现实影响力
AlphaFold不太可能会让实验室关门——比如用实验方法解析蛋白质结构的Brohawn实验室。但它或许意味着,想要得到一个好的结构,可能只要相对低质量、易收集的实验数据就够了。它的一些应用注定要大放异彩,比如对蛋白质的演化分析,因为现有的海量基因组数据如今有望可靠地转化为结构了。“这将赋能新一代的分子生物学家,让他们提出更前沿的问题。”Lupas说,“今后需要的思考越来越多,需要的移液越来越少了。”
“我本来以为我这辈子都看不到这个问题被解决的一天。”曾担任CASP评审专家、欧洲分子生物学实验室-欧洲生物信息研究所的结构生物学家Janet Thornton说。她希望这种方法能帮助揭示人类基因组中成千上万个尚未解析的蛋白质的功能,搞清楚人与人之间为什么会有不同的致病基因变异。
AlphaFold的表现也是DeepMind的一个转折点。这家公司因让AI成为了围棋等游戏的高手而闻名,但公司的长远目标是开发能实现宽泛的、更接近人类智能的程序。化解宏大的科学难题,比如预测蛋白质结构,是它们的AI技术所能实现的最重要的应用之一,Hassabis说。“我真的认为这是我们做过的最厉害的事,我是指在现实影响力方面。”