只需1台CPU跑600多秒，GNN快速有效优化蛋白质模型

2024-06-19 05:04:13

编辑/萝卜

前不久，华盛顿大学 Davide Baker 团队开发的 RoseTTAFold和DeepMind 团队开发的 AlphaFold2 源代码公布，并在同一天分别发表在《Science》《Nature》两大期刊上，使得基于深度学习进行蛋白质结构预测再次成为 AI 社区热议的话题。

说起用深度学习预测蛋白质结构，就不得不提到芝加哥丰田计算技术研究所的许锦波教授，他带领的团队开发的 RaptorX 将 ResNet 应用到蛋白质结构预测，大大地提高了预测精度，被认为是该领域第一个在实验上可行的深度学习方法，激活了蛋白质结构预测这个曾经很长时间进展缓慢的领域。经过不断迭代，最新一代版本已经不再需要共进化信息，并在预测人工设计的蛋白质结构时表现得更好。

随着 GNN 的兴起，再加上图表示更适合蛋白质等生物结构，许教授团队就有了探索基于 GNN 进行蛋白质结构预测的想法。研究发现，在某些情况下，GNN比 ResNet 的模型优化程度更高，可以将预测出的蛋白质三级结构优化成与实际蛋白质更为接近的 3D 模型，其效果跟基于分子动力学的传统方法接近，但速度却是传统方法的几百倍，只需一个 CPU 花上 10 分钟左右就可以完成一个蛋白质模型的优化。

这项最新的研究成果于 7 月 15 日以「Fast and effective proteinmodel refinement using deep graph neural networks」为题发表在杂志《Nature Computational Science》上。

高精度的蛋白质结构预测有助于在分子水平上理解生物过程。在过去的几年中，蛋白质结构预测有了巨大的进步。然而，一些预测的蛋白质结构模型仍然与它们的天然结构有很大的偏差，这限制了它们在下游应用中的价值。

蛋白质模型优化（Protein model refinement）作为提高蛋白质预测模型质量的最后一步，旨在改进初始模型，生成更高质量的新模型。目前已有一些成功的优化方法，例如：密歇根州立大学的Feig 团队开发的基于分子动力学模拟的模型采样（conformation sampling）方法，华盛顿大学的Baker团队开发的 DeepAccNet，首尔国立大学的Seok 团队开发的 GalaxyRefine2。

尽管这些方法在某些蛋白质上表现良好，但它们都依赖于大量的模型采样，因而需要大量计算资源来完善蛋白质模型，即使是单个蛋白质模型也需要数小时或数天的时间来改进。

许锦波教授团队提出了一种快速有效的模型优化方法——GNNRefine。该方法应用图神经网络（GNN），从初始模型中预测「优化的原子间距离概率分布」，然后根据预测的距离分布重建三维模型。

经过严格的测试，许教授团队的方法具有与 Feig团队和 Baker 团队的方法相当的准确性，但运行速度要快很多。该方法在一个 CPU 上优化一个蛋白质模型，平均耗时不超过 11 分钟；而 Feig 团队的方法在一个 GPU 上优化一个小的蛋白质模型大约需要 16 小时，Baker团队的方法优化一个模型平均需要在 60 个 CPU 上耗时约 30 小时。

研究还表明，如果只允许非常有限的模型采样时，GNN 的性能明显优于 ResNet （卷积残差网络）。

GNNRefine方法

GNNRefine主要包括三个步骤：

将初始模型表示为图并从初始模型中提取原子、残基和模型的几何特征；
使用GNN预测图中每条边的优化距离；
将预测的距离概率转换为距离势能函数，并将其输入 PyRosetta FastRelax中，通过侧链组装和能量最小化生成优化后的模型。

GNNRefine 主要由三个模块组成：一个原子嵌入层、多个消息传递层和一个输出层。

图示：GNNRefine示意图。（来源：论文）

在CASP13、CASP14测试数据上的性能

GNNRefine 在 CASP13、CASP14 测试模型上都取得了良好的效果，成功优化了多个模型，并且每个模型的优化全程不超过15分钟。

CASP13和CASP14优化目标数据来源：https://predictioncenter.org/

CASP13：将 GNNRefine 方法与 CASP13 优化类别中人工组的两种方法以及服务器组中的五种方法进行比较，研究表明，使用该方法来优化蛋白质预测模型是非常安全的（也就是说很少把初始模型优化坏了）。

图示：在CASP13优化目标上的性能。（来源：论文）

CASP14：在 37 个 CASP14 优化目标上对 GNNRefine 方法进行测试，并与人工组和服务器组中排名靠前的方法进行比较。研究表明，CASP14 模型比 CASP13 模型更难改进。但总体来说，该方法在 CASP14 优化目标上比 Feig 团队和 Baker 团队的方法表现稍差（可能因为Feig和Baker团队都用了额外的信息），但比其他方法都要更好。

图示：对所有CASP14优化目标的性能。（来源：论文）

其中有5 个 CASP 测试模型（3 个 CASP13 模型和 2 个 CASP14 模型）， GNNRefine把它们的质量提高了至少10分（ΔGDT-HA ≥10）。

图示：GNNRefine优化的成功示例。（来源：论文）

中科院计算所沈华伟：图卷积神经网络的思想起源

智源社区 & AI科技评论作者 | 周寅张皓小到分子相互作用,物质结构,大至气候变化,星系模型,很多自然界和社会生活中的现象都能用图结构描述.而如何将神经网络应用到图网络中进行计算,在几年 ...
新闻 | “它将改变一切”：DeepMind的AI在解析蛋白质结构方面的巨大飞跃

编译:魏冬,编辑:Emma.江舜尧. 原创微文,欢迎转发转载. 科学家说,谷歌用于确定蛋白质3D形状的深度学习程序有望改变生物学. 继在围棋界一战成名的人工智能产品-AlphaGo后,Alphabet ...
继围棋AI之后，DeepMind又有突破！可加速新药研发

困扰科学家近50年之久的蛋白质折叠问题有了新的解决方法.当地时间11月30日,谷歌旗下DeepMind公司宣布,其开发的AI程序AlphaFold可以准确地预测蛋白质三维空间结构--而高效地破解和疾病 ...
21世纪最重要科学前沿问题之一，有望解决了

◎ 科技日报记者张梦然英国<自然>杂志16日发表的一项结构生物学最新研究,世界著名人工智能团队深度思维(DeepMind)描述了神经网络"阿尔法折叠2"(Alpha ...
曾引起人工智能、生命科学两界大地震，DeepMind背后的AlphaFold2是什么来头？

编译| 渣渣辉出品| 科创实验室 7月15日,总部位于伦敦的DeepMind(2014年被谷歌收购)发布了其深度学习神经网络AlphaFold2的开源版本,并在<自然>杂志上的一篇论文中 ...
里程碑！Science、Nature同日发文，50年生物学难题迎来两款AI产品破局

蛋白质(protein)是构成生命体的重要物质,其功能在很大程度上取决于它独特的三维结构.在过去的50年里,"蛋白质折叠问题"一直是生物学界最大的谜团.尽管X 射线晶体学和冷冻电子 ...
颠覆生物学！AlphaFold成功预测蛋白质结构

谷歌旗下人工智能(AI)公司DeepMind的一个AI网络朝着解决生物学领域最大的挑战之一迈出了一大步,这里的挑战是:根据一个蛋白质的氨基酸序列来确定它的3D结构. DeepMind的这个程序叫做&q ...
它将改变一切：AI解决了生物学50年来的重大难题

生物学界最大的谜团之一,蛋白质折叠问题被 AI 破解了. 图片来源:Pixabay 来源公众号"机器之心" CASP14 组织者.年近七旬的 UC Davis 科学家 Andr ...
Casp1基因敲除小鼠模型介绍

基因敲除小鼠是什么?是否就是我们平日所说的实验室用的小白鼠?其实小鼠有很多种,小白鼠只是其中一种,通常普通的小白鼠多被药厂用作临床试验,而基因敲除的小鼠,则用于更尖端的生物医学研究. 基因敲除小鼠技术 ...
阿尔法折叠：对立挑战还是协同赋能

近日,人工智能再次大出风头.在CASP(国际蛋白质结构预测赛)中,谷歌旗下DeepMind团队的AlphaFold2(阿尔法折叠)摘得桂冠.在CASP的一系列测试中,AlphaFold2获得92.4分 ...
“生化版”阿尔法狗来了，生命密码的马奇诺防线崩了

全文共 3175 字,阅读大约需要 7 分钟 2009年诺贝尔化学奖得主拉马克里希南表示:"这是蛋白质折叠的惊人进展,它解决了已经困扰生物学家50多年的问题,比大家预期的要早几十年.它将以多 ...
Nature Science：AI仅用几分钟就解开蛋白结构，结构生物学家会失业吗？

理解蛋白质的结构,有助于确定蛋白质的功能,了解各种突变的作用.截至目前,约有10万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数10亿计的蛋白质中只占了很小一部分. 几十年来,研究人员一直 ...
研究蛋白质的AI得到了诺贝尔奖级别的重大进展

2020.12.01 , 17:48 总部位于英国的AI公司DeepMind自开发出AlphaGo以后,已经成为了人工智能领域里的领航者. 然而,有不少人诟病其未能在更加具有应用性的问题里有所突破. ...
50年生物学难题迎两款AI产品破局！Science、Nature同日发文，预测蛋白结构算法开源

[导读] 「AI预测蛋白质折叠,为何让学界如此狂热?」 AI又让学术圈沸腾了,<Science>和<Nature>甚至齐齐发文. 去年谷歌旗下AI公司Deepmind开发出一项 ...

只需1台CPU跑600多秒，GNN快速有效优化蛋白质模型

相关推荐