只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型

编辑/萝卜

前不久,华盛顿大学 Davide Baker 团队开发的 RoseTTAFold和DeepMind 团队开发的 AlphaFold2 源代码公布,并在同一天分别发表在《Science》《Nature》两大期刊上,使得基于深度学习进行蛋白质结构预测再次成为 AI 社区热议的话题。

说起用深度学习预测蛋白质结构,就不得不提到芝加哥丰田计算技术研究所的许锦波教授,他带领的团队开发的 RaptorX 将 ResNet 应用到蛋白质结构预测,大大地提高了预测精度,被认为是该领域第一个在实验上可行的深度学习方法,激活了蛋白质结构预测这个曾经很长时间进展缓慢的领域。经过不断迭代,最新一代版本已经不再需要共进化信息,并在预测人工设计的蛋白质结构时表现得更好。

随着 GNN 的兴起,再加上图表示更适合蛋白质等生物结构,许教授团队就有了探索基于 GNN 进行蛋白质结构预测的想法。研究发现,在某些情况下,GNN比 ResNet 的模型优化程度更高,可以将预测出的蛋白质三级结构优化成与实际蛋白质更为接近的 3D 模型,其效果跟基于分子动力学的传统方法接近,但速度却是传统方法的几百倍,只需一个 CPU 花上 10 分钟左右就可以完成一个蛋白质模型的优化。

这项最新的研究成果于 7 月 15 日以「Fast and effective proteinmodel refinement using deep graph neural networks」为题发表在杂志《Nature Computational Science》上。

高精度的蛋白质结构预测有助于在分子水平上理解生物过程。在过去的几年中,蛋白质结构预测有了巨大的进步。然而,一些预测的蛋白质结构模型仍然与它们的天然结构有很大的偏差,这限制了它们在下游应用中的价值。
蛋白质模型优化(Protein model refinement)作为提高蛋白质预测模型质量的最后一步,旨在改进初始模型,生成更高质量的新模型。目前已有一些成功的优化方法,例如:密歇根州立大学的Feig 团队开发的基于分子动力学模拟的模型采样(conformation sampling)方法,华盛顿大学的Baker团队开发的 DeepAccNet,首尔国立大学的Seok 团队开发的 GalaxyRefine2。
尽管这些方法在某些蛋白质上表现良好,但它们都依赖于大量的模型采样,因而需要大量计算资源来完善蛋白质模型,即使是单个蛋白质模型也需要数小时或数天的时间来改进。
许锦波教授团队提出了一种快速有效的模型优化方法——GNNRefine。该方法应用图神经网络(GNN),从初始模型中预测「优化的原子间距离概率分布」,然后根据预测的距离分布重建三维模型。
经过严格的测试,许教授团队的方法具有与 Feig团队和 Baker 团队的方法相当的准确性,但运行速度要快很多。该方法在一个 CPU 上优化一个蛋白质模型,平均耗时不超过 11 分钟;而 Feig 团队的方法在一个 GPU 上优化一个小的蛋白质模型大约需要 16 小时,Baker团队的方法优化一个模型平均需要在 60 个 CPU 上耗时约 30 小时。
研究还表明,如果只允许非常有限的模型采样时,GNN 的性能明显优于 ResNet (卷积残差网络)。
GNNRefine方法

GNNRefine主要包括三个步骤:

  1. 将初始模型表示为图并从初始模型中提取原子、残基和模型的几何特征;

  2. 使用GNN预测图中每条边的优化距离;

  3. 将预测的距离概率转换为距离势能函数,并将其输入 PyRosetta FastRelax中,通过侧链组装和能量最小化生成优化后的模型。

GNNRefine 主要由三个模块组成:一个原子嵌入层、多个消息传递层和一个输出层。

图示:GNNRefine示意图。(来源:论文)

在CASP13、CASP14测试数据上的性能
GNNRefine 在 CASP13、CASP14 测试模型上都取得了良好的效果,成功优化了多个模型,并且每个模型的优化全程不超过15分钟。
CASP13和CASP14优化目标数据来源:https://predictioncenter.org/
CASP13:将 GNNRefine 方法与 CASP13 优化类别中人工组的两种方法以及服务器组中的五种方法进行比较,研究表明,使用该方法来优化蛋白质预测模型是非常安全的(也就是说很少把初始模型优化坏了)。

图示:在CASP13优化目标上的性能。(来源:论文)

CASP14:在 37 个 CASP14 优化目标上对 GNNRefine 方法进行测试,并与人工组和服务器组中排名靠前的方法进行比较。研究表明,CASP14 模型比 CASP13 模型更难改进。但总体来说,该方法在 CASP14 优化目标上比 Feig 团队和 Baker 团队的方法表现稍差(可能因为Feig和Baker团队都用了额外的信息),但比其他方法都要更好。

图示:对所有CASP14优化目标的性能。(来源:论文)

其中有5 个 CASP 测试模型(3 个 CASP13 模型和 2 个 CASP14 模型), GNNRefine把它们的质量提高了至少10分(ΔGDT-HA ≥10)。

图示:GNNRefine优化的成功示例。(来源:论文)

(0)

相关推荐