JCIM｜基于图卷积神经网络的逆合成反应预测和可解释性可视化

2024-06-19 23:28:08

今天给大家介绍的是Journal of Chemical Information and Modeling上的文章 "Prediction and Interpretable Visualization of Retrosynthetic Reactions Using Graph Convolutional Networks"。

当前，机器学习和深度学习不断发展，化学家逐渐将机器学习和深度学习应用于反应预测。本文作者使用图卷积神经网络(GCN)完成了两个具有挑战性的任务：改进逆合成反应预测和逆合成反应预测的可解释性。

在本文中，作者提出了一个可解释的预测框架，使用图卷积网络(GCN)来进行逆合成反应预测、使用积分梯度(IG)来实现预测的可视化。此外，基于积分梯度(IG)的图卷积神经网络(GCN)预测可视化成功地挑选出了与反应相关的原子。

1.研究背景

逆合成分析是一种规划合成路线的常见方法。当前逆合成分析主要分为两种研究方式：基于规则和基于数据驱动。由于深度学习(DL)的不断发展，研究人员将视线聚焦于用数据驱动的方法来设计逆合成路线，这样的方法已经取得了极佳的成果。深度学习在医学、翻译系统、农业等各个领域也取得了显著的成就。

单步逆合成反应预测是在数据驱动方法中实现逆合成分析的必要步骤。因此，逆合成反应的预测很大程度上会影响由数据驱动方法设计的合成路线，预测误差会由于多重预测而不断积累。为了解决逆合成反应预测，基于深度学习的方法已经被开发，并取得了优异的成果。

深度学习(DL)方法比传统的机器学习(ML)方法具有更高的预测精度。但黑盒问题导致预测原因难以解释。因此，黑盒问题会使深度学习(DL)的预测不太被化学家所接受。

尽管存在这样的问题，数据驱动的方法已经取得了极好的成果。为了使化学家更好地接受数据驱动方法，解决黑盒问题是一件至关重要的事。因此，本文研究旨在解决上述两个问题：（1）提高逆合成反应预测的精度，（2）开发一个可解释的可视化系统来解决黑盒问题。

2.实验模型

在本文的研究中，作者通过使用美国专利数据集结合图卷积神经网络(GCN)和积分梯度(IG)来证明模型的有效性。

本文的目的是从一个分子（产物）的反应中预测反应模板。作者建立了两个模型：一个使用分子图(GCN模型)作为输入，另一个使用ECFP(ECFP模型)作为输入的模型进行比较，如图1所示。对于预测性能进行评估，使用了5倍交叉验证。数据集被分成三组：65%的数据集用于训练数据，15%用于验证数据，20%用于测试数据。

图1:GCN和ECFP模型。

为了确认分子的哪些特征影响了预测结果，本文开发了一个使用积分梯度(IG)的可视化系统。在学习了逆合成反应预测模型后，可以将预测结果可视化。作者定量评估了10000个分子的IGs。

3.实验

进行逆合成反应预测。GCN模型在平衡精度方面的效果优于ECFP模型，如图2所示。

图2: GCN(蓝色)和ECFP(橙色)模型之间的平衡精度的比较。

为了阐明GCN模型和ECFP模型之间的差异，本文展示了详细的预测结果。本文比较了最佳GCN和ECFP模型的前10个平衡精度中每个反应模板的准确性。GCN模型正确率在0.7~1.0之间比ECFP更多，如图3所示。

图3: GCN(蓝色)和ECFP(橙色)模型的正确率。

本文可视化了一个分子中的原子对逆合成反应预测的贡献。在下图中展示了几个典型的示例。图4a展示了反应中心与对反应预测有贡献原子匹配的例子，图4b展示了反应中心与对反应预测有贡献原子不匹配的例子。图4c展示了错误预测的示例。红色表示对预测的正贡献，蓝色表示对预测的负贡献。

图4：可视化分子中原子对逆合成反应预测的贡献。分子中浅绿色的原子部分对应于反应模板中的反应中心。颜色条表示IGs的值。(a)对反应预测有贡献的原子和反应中心匹配的案例。(b)对反应预测有贡献的原子和反应中心不匹配的案例。(c)不正确预测的例子。浅绿色和浅紫色的原子部分分别代表正确的反应中心和预测的反应中心。

4.实验结果

GCN模型在逆合成反应预测方面的预测效果好于ECFP模型。在分子预测任务中结合以前的各种研究结果表明，基于图的方法效果超越了传统的机器学习方法。在本研究中，与传统的ECFP神经网络方法相比，基于图的方法在逆合成反应预测中也展示出了更好的效果。此外，GCN模型能正确预测多类别的反应模板。作者推测这是由于基于图的方法通常很难过拟合数据集造成的。一般来说，这种优势在逆合成分析中很重要。

IGs成功识别出了逆合成反应预测的反应中心，如图4所示。

为了确认GCN模型对天然产物的预测效果，作者对四种不同结构复杂度的天然产物进行了逆合成反应预测：苄青霉素、红霉素A、吗啡和前列腺素E1。对苄青霉素的预测被认为是合理的。然而，其他的预测结果被认为是不合理的。无法预测的原因是该模型不能很好地学习天然产物的重要特性。

5.结论与未来展望

本文成功地开发了基于GCN的可解释逆合成反应预测的方法。并将基于GCN的模型与传统ECFP模型的预测效果进行了比较。结果表明，GCN模型的预测精度高于ECFP模型，而GCN的预测受数据集的影响较小。此外，使用IG的GCN预测可视化成功地显示了分子中的各原子对逆合成反应预测的贡献。通过对这些原子对反应预测贡献的可视化，我们可以推测逆合成反应预测的原理，这有望有助于化学家理解基于数据驱动方法的逆合成反应预测。本文中的模型有望成为构建逆合成反应预测的高质量模型的基石，并对探索逆合成反应具有重要意义。

在未来的工作中，将重点通过以下三点来提高模型的性能。第一个是对正确率较低的反应模板进行过采样。第二种方法是用IGs设置一个过滤参数，对预测的反应模板进行重新排序。最后是开发一种方法来表示分子的局部电荷和化学结构信息。这些方法有望提高平衡精度，改进的模型将更适合逆合成分析。文中作者计划将改进后的GCN模型与其他先进的深度学习模型进行比较，包括transformer模型等。

参考资料

Prediction and Interpretable Visualization of Retrosynthetic Reactions Using Graph Convolutional Networks DOI link: https://doi.org/10.1021/acs.jcim.9b00538

Nat. Commun.| 从化学反应文本表示中探究实验过程

今天给大家介绍瑞士IBM研究实验室及比萨大学研究人员联合发表在nature communication 上的一项工作.在这项工作中,作者提出了从化学方程式的文本表示中预测完整合成步骤的数据驱动模型.作 ...
使用计算机视觉来做异常检测

作者:Mia Morton 编译:ronghuaiyang 导读创建异常检测模型,实现生产线上异常检测过程的自动化.在选择数据集来训练和测试模型之后,我们能够成功地检测出86%到90%的异常. 介绍 ...
CogDL: 基于图的深度学习开源工具包

CogDL 是由清华大学知识工程实验室(KEG)联合北京智源人工智能研究院(BAAI)所开发的基于图的深度学习的开源工具包,底层架构 PyTorch,编程语言使用了 Python. 视频 ↑ CogD ...
GCN-GAN：加权动态网络的非线性时序链路预测模型

GCN-GAN：加权动态网络的非线性时序链路预测模型
AVGCN：利用人类注意力引导的图卷积网络进行轨迹预测

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
个性化癌症治疗再进一步！科学家通过图卷积神经网络技术发现165个新的致癌基因

作者:刘芳编审:王新凯.寇建超排版:王落尘作为对人类健康造成最重大威胁的疾病之一,癌症一直是各国科学家们重点研究的对象.据世界卫生组织国际癌症研究署(IAR)发布的全球最新癌症预估数据显示,20 ...
图卷积神经网络用于解决小规模反应预测

文章来源于微信公众号智药邦(ID:PHAIMUS) 今天给大家介绍的是浙江工业大学智能制药研究院的段宏亮教授研究团队发表在Chemical Communications上的文章 " A g ...
基于三维卷积神经网络的点云标记

摘要本文研究三维点云的标记问题.介绍了一种基于三维卷积神经网络的点云标记方法.我们的方法最大限度地减少了标记问题的先验知识,并且不像大多数以前的方法那样需要分割步骤或手工制作的特征.特别是,我们提出 ...
中科院计算所沈华伟：图卷积神经网络的思想起源

智源社区 & AI科技评论作者 | 周寅张皓小到分子相互作用,物质结构,大至气候变化,星系模型,很多自然界和社会生活中的现象都能用图结构描述.而如何将神经网络应用到图网络中进行计算,在几年 ...
基于三维卷积神经网络的RGB-D显著目标检测

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
斯坦福大学最新论文|知识图卷积神经网络在推荐系统中的应用

推荐系统广泛应用于互联网应用和服务中.传统的协同过滤推荐算法通常会遇到用户-物品交互的稀疏性问题和冷启动问题,可以通过引入额外的信息来解决,如用户/物品属性信息和社交网络.近年来,为了解决上述问题,一 ...
图卷积神经网络理论基础

您想知道的人工智能干货,第一时间送达 Graph Convolutional Networks图卷积网络涉及到两个重要的概念,Graph和Convolution.传统的卷积主要应用于Euclidean ...
T-MGCN时间多图卷积网络用于交通流预测

T-MGCN时间多图卷积网络用于交通流预测 1.文章信息 <Temporal Multi-Graph Convolutional Network for Traffic Flow Predict ...
新论文 | 卷积神经网络 + 小波时频图：基于地震动时频域特征的震害评估新方法

想必很多我的同龄人都对这张脸印象深刻.由于相貌特点,成奎安成功的塑造了诸多经典反派角色.只要他一出场,就知道这是一个好凶好凶的大坏蛋. 图像中蕴含着很多微妙的信息,但是在人工智能技术获得突破前,发掘图 ...

JCIM｜基于图卷积神经网络的逆合成反应预测和可解释性可视化

相关推荐