Drug Discov Today|配体-蛋白的分子对接中的机器学习
前言
药物发现是一个对候选药物进行体外测试、体内验证以及其他步骤的复杂过程。在此之前,研究者需要广泛地评估候选分子以确立最有可能商业化的单个药物。即使是在体外进行广泛的数据库筛选也是非常耗时耗力的。药物研发流程从开始到商业化平均需要12年的时间,平均投入为18亿美元。
研究人员和制药企业致力于降低药物研发的时间和投入成本,分子对接可以使用复杂的过滤器挑选感兴趣的候选药物,分子对接也能够用于检测药物潜在的毒副作用。分子对接使用配体和靶标的三维结构,来预测相互结合的最佳模式。通常,配体是非常小的分子,具体大小取决于项目本身。在药物发现中,配体指的是活性成分,靶标指的是生物大分子(例如蛋白或者DNA),但对接可以涵盖广泛的配对可能性:蛋白-DNA、蛋白-RNA、蛋白-糖、蛋白-肽段以及蛋白-小分子化合物的对接。这里,我们聚焦于蛋白-小分子化合物(也就是蛋白-配体)的分子对接,它们是目前分子对接方法研究的重要内容。本文对配体-蛋白对接的概念进行了描述,这个概念同样适用于其他类型的对接。一些实验方法可以获得分子的三维结构,如X射线晶体衍射方法是目前最流行的方法,其他还包括了核磁共振(NMR)和电镜等方法。PDB数据库,是蛋白质三维结构数据库,它的90%的结构通过X-射线晶体衍射得到(如果只考虑已知配体-蛋白结合亲和力的结构,则几乎占 99%),8%的结构通过NMR获得,相关方法和统计信息可访问PDB网站了解详情(www.rcsb.org)。
药物研发经常需要针对一个靶点全面测试一个配体库,这一步被称为虚拟筛选(VS)或高通量虚拟筛选(HTVS),用以减少在体内和体外测试的配体数量。通过对配体排序排除那些低亲和力的配体(这样的配体通常不具备可药性潜力)。通过虚拟筛选,最具潜力的分子被选择用于后续的体外、体内试验。虚拟筛选可以是基于配体的(也就是只使用配体的信息):根据配体结构和化学性质,来预测相似的配体是否能够与相似的靶标结合。虚拟筛选也可以是基于结构的,使用复合物分子结构决定特定配体是否能够与靶标结合。分子对接可用于基于结构的虚拟筛选,一些文章则直接将分子对接表述为基于结构的虚拟筛选。此处,我们聚焦于基于结构的分子对接方法。
配体-蛋白分子对接
基于三维结构,分子对接实验可以预测复合物构象和结合亲和力。分子对接包括两步,第一步是采样,根据配体的刚性的三维结构生成一系列的构象。采样需要探索配体分子构象空间,并且聚集所有理论上可能的构象。第二步是打分,评估蛋白-配体复合物构象(pose)形成时的结合亲和力。虽然这两步是独立进行,但是它们之间显著相关,因为打分函数(SF)常被用于指导采样。
任何分子对接方法都面临的主要挑战,是处理分子柔性和真实地反应分子间的结合(图2),这都需要大量的计算时间。这里我们概括了分子对接相关问题、目前的挑战以及解决方法(未使用机器学习)。
第一项挑战:分子柔性
真实情况下,分子的柔性体现在键、角和二面角的转动,虽然分子的柔性是分子对接考虑的基本要素,但是早期的分子对接方法将分子视为刚性结构并且使用锁钥原理处理对接问题。新的方法基于启发式的构象空间探索方法,提高了对柔性分子的采样能力。这种方法被称为半柔性对接,因为只考虑小分子的柔性,而将靶标仍然视为刚性。进一步的,一些方法将两者都视为柔性的。因而靶标的柔性处理出现了不同的方法:一种是利用动力学模拟对靶标进行广泛采样,相关结构被挑选用于多个刚性靶标对接实验;另一种策略是只将围绕在结合位点的残基的侧链视作柔性的,推论认为当配体存在会诱导这些柔性侧链的变动,这一方法也被称为“诱导契合”。
配体构象空间采用
一个分子有着多重自由度(三个坐标、三个朝向以及可旋转键角导致的固有柔性),这些都是产生构象空间的要素。探索构象空间在计算上是不可行的,即使是小分子化合物。因此一些采样方法出现,用于优化并且搜寻最好的构象。采样方法可以分为形状匹配、系统采样、随机采样和模拟采样。表1展示了几种对接软件和相关采样技术。随机采样方法是目前使用最为广泛的采样方法。
形状匹配方法
形状匹配是第一个对接程序DOCK所使用的采样方法,这种技术通过几何形状表征分子(配体和受体),例如球体或多面体,并使用匹配或互补的原则寻找新构象的形状。然而这一方法无法考虑分子内部柔性,因此需要在搜索开始前就产生分子构型。
系统方法
系统采样方法允许定量探索分子构象空间,迭代方法(IM)试图通过一个给定的构象生成所有可能的构象,通过给定增量控制探索所有可能的自由度。因此即使是小分子配体其构型空间也是十分庞大的。
数据库方法使用构象数据库,例如Flexibase。这种数据库包含有每个配体的预计算的构型,而不是计算所有可能的几何结构,因此计算时间得以缩减。基于片段的方法(FBs)通过放置和连接策略或增量策略可以用于搜寻最优构象。放置和连接策略将配体剪切为片段并且在靶标结合位点进行拼接,然后对每个片段进行能量最小化,最后连接所有片段成为新的配体。增量策略则通过取代第一个片段,能量最小化,然后添加下一个片段,再能量最小化,直到配体被完全重构。分子剪切可能对最后的姿势产生不可预期的影响。单个配体和整个分子之间的能量最小化可能不同,而重构的分子可能将叠加所有片段的不精确度。
随机方法
与系统方法不同,随机方法用于只探索构象空间的一小部分配体。这些方法使用伪随机函数来生成构象和 SFs 来指导他们探索构象空间。最常用的方法是蒙特卡罗(MC) 、蚁群 (AN)、遗传算法 (GA) 和粒子群优化 (PSO) 。超参数的选择影响随机方法,从而导致一些相关领域的信息可能会被遗忘。
模拟方法
第二项挑战:结合打分
所有的对接软件通过打分函数(SFs)对配体结合构象进行排序。SFs通常旨在估计结合的自由能。鉴于计算这种能量的确切值是计算密集型的,SFs得以产生足够准确的分数来评估对接模拟。此外,SFs可用于指导采样算法。不同的SFs可分为物理方法的、经验方法的、基于先验知识的方法以及共识方法等。我们第一次对其打分函数的数学函数进行了综述,示例软件和SFs见表1。
打分函数空间
SF可确定与给定蛋白结合的配体的最优构型。最初对蛋白空间的定义,仅根据序列来进行,但是最合适的定义应该是考虑蛋白相似结构会趋于折叠在一起。因此,配体的化学空间可以考虑看成是所有小分子构型的聚集体。每个复合体都可以看做一个包含蛋白质空间的集合和化学空间的集合。第三个空间是SF空间,包含所有可能的评分函数。假设它存在至少一个 SF空间项可以预测蛋白质合集与化学空间合集之间的结合亲和力。计算方法使这个空间成为探索所考虑蛋白质的最佳 SF和化学子集。
基于物理的打分函数
Li 等人首次引入了基于物理的打分函数。其中最著名的是力场类SFs,这个子类通过几个能量项的加权和来评估自由能。对这类函数的选取,取决于所使用的力场。最常见的能量术语是范德华力、静电相互作用和氢键。可用力场种类很多,包括AMBER, GROMOS、OPLS和 CHARMM。基于力场的SF可以使用单一力或不同力的组合。由于衡量原子距离和单独计算结合与非结合的能量的准确性较高,基于物理的打分函数被广泛使用,例如其已实现在 AutoDock4中。基于物理的家族还包括了考虑了溶剂模型和量子力学的类型。前者添加溶剂化/去溶剂化影响以及扭转熵,后者混合了量子力场和分子力场在合理的计算时间内提高了SF精度。Li等人发现基于量子力学的SFs是目前最有前途的基于物理的打分函数。
经验评分函数
与基于力场的方法类似,经验方法估计束缚的自由能,但没有大量的计算要求。这个估计是通过评估参数的加权和来实现的,例如氢键的数量,亲疏水性接触等。这些参数比力场参数简单,因而计算也更快。
基于知识的评分函数
以知识为基础的SF依赖于对平均力势(PMF)的阐述。基于复合物的大型3D结构数据库中分子间相互作用的统计分析发现,考虑了新复合物中分子相互作用类型的函数要比只考虑了原子或者官能团的打分函数要更为可靠。
共识打分函数
第三项挑战:计算时间
计算时间是采样(巨大的探索空间)和评分(调用事件)的关键指标。在这两种情况下,算法的选择及其实现都至关重要。在采样方面,减少计算时间的方法是将配体对接在蛋白质表面的一个划定区域上(例如,通常使用以特定兴趣点为中心的边长为20 Å的立方体)。因此,了解相互作用位点在靶上的定位至关重要,这往往与生物学结果有关。与此方法相关联的缺点在于不可能轻易地将结果推广到未定义或不同的系统。的确,如果已知配体结合在特定靶点的特定位点上,就不能保证新配体结合在同一位点上。同样,局部搜索也不能转置到新的目标上。一些研究试图在不需要任何先验知识的情况下,使用更苛刻的对接模拟,探索表面来克服这一缺陷,这种方法称为“盲对接”。划定区域的选择显著影响对接精度:如果该框不包含结合位点或仅包含其中一部分,那么对接将是错误的。
此外,一些方法,如结合位点检测,通过预测目标表面的假定结合位点,允许在没有先验信息的情况下对目标使用划定搜索。通常,这种搜索要么通过几何搜索,如FPocket;要么通过寻找与束缚自由能有关的最有趣区域来完成,如Q-SiteFinder使用甲基作为探针来探测该区域。减少时间的另一种方法是使用集成对接方法,该方法集成实验数据来驱动模型构建。
数据
数据对于分子对接方法的发展具有关键作用,尤其是基于ML的方法。数据的数量和质量,以及模型如何表示它们对性能和准确性有重大影响。关于数据量,PDB数据库提供了一个广泛的分子复合物数据库。
数据质量
在开发用于分子对接的 ML 模型时,重要的是在已建立的数据集上训练和验证模型而不是使用合成或增强的数据集。这保证了训练集的代表性、详尽性和多样性,并允许方法间进行标准比较。常见的数据集包括:
PDBbind,该数据库根据PDB数据库每年更新新的复合体,2019版本的该数据库包含3种不同的子版本:通用 (21382个), 重定义(4852个), 核心 (285个)。
DUD和DUD-E数据库,分别包含40和102个靶标分子,2950和22886个活性配体数据。每个配体有36或者50个理化性质接近但是拓扑结构不同的诱饵集。
MUV数据集,根据NIH PubChem数据库收集了17个靶标。
CSAR数据库,一个对接复合物数据库。
sc-PDB数据库,基于PDB数据库,同时收录了蛋白质结合位点信息的数据库。
数据表示
数据表示是数据科学响应到特定问题的核心部分。随着技术的进步,数据变得更加详细并包含越来越复杂的信息。数据类型的选择对对接性能有显着影响。即使 3D 坐标可以直接用作输入,但是通常需要使用从3D坐标收集到的,包括描述符、分子指纹或交互指纹、基于图像或图形等信息作为输入源。
描述符是表示分子复合物最简单的方法。描述符是一种手工设计的能表征了分子复合物的保真度的信息源。描述符还可以反映物理化学性质,如某种类型的原子列表,给定阈值时配体与靶标之间的原子对数目,或能量项。描述符也可以是几何的,如果它们来源于分子的三维结构。最后,这些描述符中的几个组合通常用来表示一个复合体。这种描述符往往容易理解和可用,但描述符只能表征唯一的对象,这限制了模型性能。
指纹是分子或复合物的高级表示。第一类依赖于分子指纹,其中3D数据被转换成1D数据,通常是一串位、整数或字符。化学式并不详细,结构式虽然更详细,但却不适合用于计算出发点。指纹可以表征2D结构,例如MACCS分子指纹,统计了额外的化学性质;指纹可以对3D结构进行编码,例如FfuzCav,能表征蛋白结合位点的3D结构与化学性质。深度学习能够和分子表面相互作用指纹(MaSIF)、结构相互作用指纹(SIFt)和结构性蛋白-配体相互作用指纹(SPLIF)一起编码蛋白质。这类指纹有着自动编码能力,是一类能够降低输入数据维度的降维算法。
深度学习(DL),特别是卷积神经网络(CNN )的出现,使得以一种新的数据表示实际三维结构成为可能。复合体首先在 3D 网格上离散化,其中网格的每个单元格,视为一个体素(体积像素)。原子稀疏地分布在格子。此外,体素具有通道(例如,图像的 RGB)可以用属性补充一组特征,例如原子类型、电荷和杂化。与经典的指纹方法相比,基于图像的数据表示更能反映包括3D结构在内的复杂性。即使很多信息都融入到这个表示中,它仍然简洁。然而,主要的缺点是这个数据表征对噪声很敏感,因为分子在一个方向上的轻微转动会导致完全不同的数据点。此外,原子坐标的离散可能会导致分子构象的准确性下降。这些问题可以部分固定下来,对第一个问题进行数据增强,对后者进行更粗略的分子表征( 考虑残基而不是原子 )。
配体-蛋白分子对接中的机器学习
ML可以通过优化现有的SF (例如,细化经验函数的权重)或以复合物的结构为输入开发新的SF来给复合物打分。此外,ML有时被用于虚拟筛选的分类模式和结合位点检测。一旦选择数据集并确定数据表示,就可以进行ML模型的开发。ML在分子对接中的应用发展迅速,前十年出现了众多方法都带来了对对接性能的显著的改进。
表2.配体-蛋白对接中的机器学习
在此,我们对配体-蛋白质分子对接中使用的ML方法进行了全面的综述,介绍了用于打分、分类( VS模式)和结合位点检测的功能。现有研究提供了一个全面的领域整体视图,ML和DL见表2和表3。尽管ML已有十多年的历史,但ML方法被引入了分子对接领域也不过是最近才开始的。
表3.配体-蛋白对接中的深度学习
线性回归
ML最基本的用途是线性回归,它决定了线性方程组的权重。例如,分析结合亲和力的工具( TABA )将配体-蛋白质相互作用表示为一组质量-弹簧接触,然后使用ML方法对复合物的亲和力方程进行参数化。
随机森林方法
随机森林( RF )是第一次尝试使用ML方法进行分子对接。RF是一种集成方法,它建立在决策树集成的结果之上并使其平滑。每个树都是用节点构建的,这些节点表示基于单个且唯一标准。此外,对不同随机化子集的训练减少了方差,从而改善了过拟合问题,这种方法也被称为"装袋"方法。
最开始的RF-Score以一组描述子作为输入,描述了参与对接的两个分子的原子对数量。如果两个原子之间的距离小于某个临界值(这是一个超参数),则配对是守恒的,并且原子属于这些类型之一:C、N、O、S、P、F、Cl、Br或则I。RF-Score更新了两次,最后一次更新采用了来自AutoDock Vina的打分函数的能量项来提高对复合物的描述。三个版本都使用一套500棵树来运行它们的模型。2017年,针对DUD-E数据集,在RF-score-VS的名字下训练了同一组模型,用以对复合物进行分离,而不是对复合物结合力进行打分。与RF-Scores相比,SIEVE-Scores在1000棵随机树上进行了搜索,并使用残基进行表征:对于目标物中的每个残基,计算了与配体的三个相互作用能(范德华力、库仑力和氢键)。复合物由一个大小为3*nres的向量表示,其中nres为残基数,称为复合物的相互作用指纹。这种方法简单有力,但仍然存在问题,因为可变长度的输入向量往往对许多ML模型是有限的。
梯度提升树法
在梯度提升树法中,子模型是按顺序训练的,而不是同时从其前件的残差集中训练。它是知识蒸馏的一种形式,与标准的“装袋”相比,它经常显示出更好的结果。2019年,Nguyen等人提出了代数图学习分数( AGL-score ),采用多尺度、多类权重着色的子图数据表征。整个分子是一个图,其中节点的属性表示原子的选择类型和空间位置,边表示非共价键,如连接原子之间的范德华键或氢键。该图一旦建立,就会从邻接矩阵( 或拉普拉斯矩阵 )的特征值中产生一系列的描述统计,并作为输入向量训练一个提升树。
支持向量机方法
在DL发展之前,支持向量机( SVM)是一类流行的ML算法。首先引入分类问题后,然后将支持向量机作为模型用于回归,也就是所谓的支持向量机回归模型(SVR)。该模型不仅分离类,而且最大化最接近其中心的元素之间的间隔。与核方法相结合,它们是一种能够解决非线性问题的工具。Li等人介绍了两种此类模型。第一种是基于知识的成对潜在向量( SVR-KB )。另一种方法是将一组物理化学描述符(范德华能量、配体包埋表面积和疏水效应)作为输入。IDScore是另一个用于得分的SVR。该方法基引入了使用额外的描述符,如金属-配体键合相互作用或去溶剂化效应。最后,PLEIC-SVM是一个特定靶标的虚拟筛选的支持向量机模型,它依赖于蛋白质-配体实证交互组分指纹。每个目标物的残基计算了三个值:范德华相互作用、疏水作用和氢键。然后将所有残基特征向量串联起来,以产生用作SVM输入的复合物的特征向量。
多层感知器方法
多层感知器 ( MLP )是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看作是一个有向图,由多个的节点层所组成,每一层都全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元。一种被称为反向传播算法的监督学习方法常被用来训练MLP。
NNscore v1是将人工神经网络引入分子对接的首次尝试。它是一个简单的前馈MLP,输入向量为194个特征(包括基本的成对原子结合、能量项或可旋转键的数量)、单个5单元隐藏层和分类输出层( "好"或 "差"粘合剂 )。一年后,它的v2使用了来自Vina的SF的能量项作为主要描述符,并添加了来自BINding ANAlyser的特性(包括v1的描述符)。此外,网络被重写以处理回归(一个输出神经元),具有更好的容量(隐藏层推至十个神经元)。2020年,Gentille等人引入了深度对接(Deep Docking ),其中标签是通过与一组特定蛋白质在ZINC15配体数据库的子集上进行分子对接产生的。由于没有提到网络拓扑,因此使用一组物理化学描述符代替。深度对接需要摩根指纹表征配体结构,利用ZINC15训练网络,对其他配体进行结合与非结分类。
卷积神经网络方法
卷积神经网络(CNN)由卷积层和捕捉空间相关性的工具组成。通过滑动跨层输入来学习过滤器权值,以建立原始数据的相关抽象表示
AtomNet是一种商业化的分子对接软件,也是最早依赖CNN的软件之一。它使用了一个三维网格,其中每个单元代表一些基本的结构特征(例如原子类型或SPLIF,SIFt指纹)。该网络的输入是一个矢量化网格,边长为20 Å,间距为1 Å,有4个卷积层,其次是两个共1024个神经元的隐含层。采用逻辑回归对两类输入进行分类。对于DeepVS,也是CNN,Pereira等人为每个复合体的原子定义了具有上下文(原子类型、原子部分电荷、氨基酸类型和邻近距离)的初始原子特征集。为了补偿变动的输入大小,网络整合了查找表。结果向量是一个固定大小的浮动数组,用于汇总输入数据。然后由单个2D卷积层进行处理,提取抽象信息和利用两个经典层产生分类。Ragoza等人介绍了一个基于CNN的打分函数,采用了类似的 3D 网格图像。这里的新颖之处在于,每个原子都用围绕原子中心的不确定度分布来表示,而不是固定值。该网络由三个块(卷积和池化)组成,然后是一个全连接(FC)的二进制分类层。
原子卷积神经网络通过以下两种类型的独特操作来构建:原子类型专用的1x1的过滤器卷积和跨原子近邻过滤器的径向池化。该方法以原子坐标和原子类型作为输入,前者构建原子间距离矩阵,后者用于构建原子类型矩阵。第一层(原子卷积)将矩阵相互结合,然后利用径向池化层对矩阵进行降维。最后,一个原子FC层将特征体积(特征矢量)拉平,接着是两个FC层,产生最终的回归输出。早先的工具聚焦于对接打分和分类,DeepSite则致力于发现潜在的结合位点,3D输入蛋白质网格沿着通道轴增加了8个物理化学描述符,网络是一个标准的CNN,产生潜在的回归得分。DenseFS它结合了Ragoza的数据表示和一个称为密集连接卷积网络( DenseNet )的跳连接网络。Stepniewska-Dziubinska 等人设计了名为Pafnucy的工具,它采用一个经典的CNN来从一个初始的4D张量(在3D网格和19个特征上离散的3D坐标)估计配体和靶标之间的亲和力,该网络包括三个卷积层,然后是产生绑定分数的三个FC层。DeepAffinity是围绕递归神经网络( RNNs )设计的另一个用于评分的特异网络,它采用了配体的SMILES表征,而靶标嵌入则是一个称为结构属性序列的字符串。这两个词被独立地磨成一个序列对序列模型,它们的潜在向量被一维卷积层处理,然后在FC层产生亲和力得分之前进行级联。
在DeepBindRG中, Zhang等人巧妙地将输入复合体转出可投影的二维图像,并残差网络( ResNet )计算以产生亲和力评分。在OnionNet中, Zheng等人提出了一种多层分子间接触理论,在这种接触中,一系列壳层围绕一个中心原子构筑,在每个洋葱层内部,都有一个相关的特征集(取决于其封装原子)。这允许作者考虑非局域相互作用。8个原子类型( 共 64对 )和60个壳层堆叠在一起,总共有3840个特性。该模型由三个卷积层和三个全连接卷积神经网络组成。FRSite是预测蛋白结合位点工具。它需要一个包含8个常用通道的3D网格来表示目标。作者使用了一个特别的3D CNN模型。这个网络被分成三个子网络:第一个是3D CNN特征提取器,它的输出反馈给网络的第二和第三部分。第二部分是一个3D区域提案网络,它允许提取假定的结合位点。最后,将第一部分和第二部分的输出交给第三部分,对产生的位点进行分类。
Francoeur等人扩展了Ragoza等人的工作,采用相同的输入数据表示和通用模型架构,但进行了全面的超优化,以产生更多的卷积层和平均池化代替最大池化。Pafnucy的作者也研究了与Pafnucy使用的相同蛋白质表示的结合位点检测,提出了Kalasanty90,其中蛋白质在三维网格上离散,每个原子使用18个描述符。受语义图像分割的启发,Stepniewska- Dziubinska等人使用U-Net来识别潜在的结合位点。DeepSurf的作者对Kalasanty数据表述进行了修改:作者没有像原论文那样对所有分子原子进行离散,而是从溶剂可及表面网格中只选择了几个感兴趣的点。然后将每个点邻域离散在与Kalasanty相同特征的三维网格上。最后,生成的模型是ResNet的一个进阶版模型。
图神经网络
图神经网络( Graph Neural Networks,GNNs )是工作在格式化-图像数据上的多种神经网络。它们已经从光谱方法发展成为一种更加灵活的综合建模工具。图卷积网络( GCNs )是一类特殊的GNNs,将卷积和池化操作从CNNs应用到图形中。
第一种利用图数据进行分子对接的方法是PotentialNet,它不再只考虑共价键,而是考虑每一种键型都有一个邻接矩阵的额外键,沿着通道连接成三维邻接矩阵。此外,它使用一个距离矩阵表示每个原子对之间的距离。该模型网络是一个GCN模型,并且分裂为三个阶段:在第一阶段,只用共价键进行传播;然后,利用共价键和非共价键进行传播,最后是一个“图聚集”步骤,通过求和来聚集矩阵行,接着是一个FC层,用来产生结合分数。Lim等人引入了带有门控增强注意层( GAT )的GNN。对于每个节点,除了规则的边外,邻近的原子((5 Å)也被认为是相连的。该方法通过三个矩阵发挥功能:第一个是节点特征矩阵,第二个是仅共价键的邻接( 在配体和蛋白质中 ),第三个是分子间相互作用的邻接(包含第二个矩阵)。在网络的每一步中,节点特征矩阵由一个GAT更新,第二个矩阵由另一个GAT更新,使用第三个矩阵。然后,从第一个节点减去第二个更新的节点特征矩阵。在附加步骤之后,所有节点特征向量被求和,并且一个FC层使用这个向量对复杂的节点进行分类。
Torgn等人提出了一种虚拟筛选方法,用两个图来表示靶标和配体。在靶标侧,图节点为结合位点处的氨基酸残基,用边连接7 Å的球体范围内的对象,利用从FEATURE程序中提取特征。配体图是经典的二维分子图。训练过程分为两步:第一步编码结合位点图,进行降维。此编码器保留到第二步,将其输出级联到配体图上训练的第二个GCN。结果反馈给FC层和一个“Softmax”分类器。Tanebe等人使用GNNs对粘结剂的好坏进行分类。这种方法由SMILES字符串生成的图表示配体,其中节点为原子,边为键。靶标也是一个图形,其中节点是氨基酸残基,五种边类型只取决于每个残基的αC之间的距离。然后,一个GNN嵌入这两个图,由此产生的级联被用来对复合物进行分类。在Tsubaki等的方法中,作者利用配体的SMILES表示产生一个图和一个GNN,然后将这个图嵌入到一个向量中。对于靶标,氨基酸序列由CNN嵌入,然后将两者级联,再利用一个FC做出预测。最近,Morrone等人利用GCN模型提出了一种新的求解对接问题的DL方法。第一个代表共价配体图( L )。第二个图是在一个4 Å范围内,从蛋白质原子跳到配体原子所构建的接触图(LP)。这种模块化方法可以以L,LP,或L + LP作为输入。在每种情况下,输入由一个GCN嵌入,并反馈给CNN进行预测。
网络体系结构的比较
性能评估
到目前为止,我们只注重模型构建,但数据集不仅可以用于模型训练,而且可以用于评估和评估所使用的方法。因此,我们在这里给出分类方法、打分函数和结合位点检测的性能评价指标。
虚拟筛选评估
除了数据集之外,作者还使用一系列的度量指标与其他现有的贡献要素进行比较。在虚拟筛选(VS)中,模型的性能通过对其区分结合配体和非结合配体的能力进行评价。一般采用受试者工作特性曲线( ROC )的富集因子( EF )或曲线下面积( AUC )来判断。EF评估选择的配体是否比随机选择的配体更好,EF的值为正实数:一个较差的分类器它的EF≤1,而一个优于随机选择的分类器它的EF > 1。相比之下,ROC曲线可根据模型的不同阈值来直观地评估分类器的质量。对于AUC,最佳AUC值为1.0,最差为0.0 随机值则取0.50。
表4详细介绍了各种方法的AUC性能,包括从文献中提取的方法。这个表格同时也反应了对VS性能得出一个简单结论的困难。数据集是在试图比较纯性能时出现的第一个问题。第二,大多数方法不是自我支持的,需要其他经典抽样软件的辅助。因此,即使在同一数据集上评估了两种方法,它们的性能也会受到所选采样方法的影响。此外,尽管抽样方法在理论上是相同的,但它们在参数初始化上可能存在差异,正如Shen等所解释的那样。因此,我们必须使用同一篇文章中给出的原始性能来比较方法。例如,根据Lim等的数据,Lim的方法比AtomNet和Ragoza的方法好。
表4.使用DUD,DUD-E和MUV数据集评估虚拟筛选方法
打分函数比较
Su等开发的评分函数比较评估(CASF )引入了3个标准来评估SF方法:评分性能、排序性能、对接性能。评分反映了一个SF'在与实验结合数据线性相关的情况下产生结合分数的能力’,它使用皮尔逊相关系数( Rp )和线性回归标准差( SD )来衡量这一性能。Rp可以在-1到+1之间。越接近1,评估的方法越好。对于SD,则越小越好,Rp和SD是最常用的比较标准。
排序性能是指一个打分函数在给定靶标以及正确的结合模式下对结合结合亲和力正确排序的能力,使用斯皮尔曼系数(p),肯德尔等级相关系数 (τ)以及预测指数(PID)来评估。排序性能评分在[-1,1]区间内,-1表示性能差,而1表示性能优越。
对接性能表示打分函数在电脑生成的诱骗集中正确识别结合模式的能力。使用RMSD值进行衡量,其公式如下图所示。通常一个成功的对接该值应该小于等于2 Å。
CASF数据集与对应年份的PDBbind核心集相同。表5列出了打分能力的方法评估示例。与表4相比,表5中的条目更具可比性:为了评估一个SF,作者使用了被对接复合物的数据集。采样步骤是不必要的,评估只因所用数据集而异。但是,可供选择的数据集种类繁多,每一个都有几个子集和版本( 例如 , PDBbind )。如果使用的数据集相同,则可以比较它们各自的性能。例如,OnionNet在PDBbind 2017核心集上的Rp评分优于弗朗克尔的方法。
表5.打分函数比较
结合位点预测比较
评估结合位点方法主要有两种选择。首先,我们可以利用已经对接的配体-蛋白质复合物( 例如 , PDBbind )的数据集,预测蛋白质的结合位点。然后,对于每个复合物,如果至少有一个预测的蛋白质位点是真正的结合位点,则可以认为方法输出是成功的。如果结合位点组成未知,这种方法则值得商榷。
但是,前面提到的所有方法都使用了sc-PDB数据集进行训练和评估。该数据集包含原子组成的位点,一旦预测的位点被定义,原子组成就可以比较。作者使用了两个度量:到真实结合位点中心的度量与预测位点最近原子之间的距离,或者真实结合位点中心与预测位点中心之间的距离。在这两种情况下,度量在阈值在4到20之间波动,数值越大,方法越好。
结论
在这里,我们讨论了机器学习,特别是深度学习如何帮助我们解决分子对接面临的挑战。我们提出了三个挑战:抽样、评分和计算时间。然而,就取样挑战而言,试图解决这一问题的ML方法尚未开发。毫无疑问,得分挑战是研究最多的问题。事实上,ML评分方法在评分函数空间探索方面是有趣的。许多ML方法已经被开发出来,并且大多数优于经典方法。因此,基于机器学习的打分函数可以看作是基于知识和经验函数的混合。事实上,与基于知识的方法类似,ML方法从一个综合数据库中提取统计数据来构建最相关的模型。相反,ML方法使用相对简单的输入并在它们之间找到链接。对于以优化网络权重为目标的DL方法更为明显,这与经验函数的目标类似,虽然他们不是主要的焦点。
本文的研究表明,无论是评分还是分类,ML方法都优于经典方法。此外,最近提出的GNN方法具有有趣的性能,但仍需对这些方法进行更深入的研究。最后一个挑战是计算时间。在计算所需时间方面,没有一种ML评分方法能够与其他方法相比,这使得在减少时间方面讨论ML的能力变得困难。但可以使用划定搜索来减少计算时间;本文提出了一些预测结合位点的ML方法,并与经典的结合位点检测方法进行了比较。因此,我们认为GNNs是改进现有ML方法的一个有趣的方法。值得一提的是,大多数方法没有在一个完整的对接管道中提及和评估;因此,将诸如Auto-Dock之类的经典方法与ML工作流进行比较会很有趣。此外,ML方法的训练和推断次数很少被作者提及。我们认为这些信息应该包括在未来的研究中,因为它为分析这些模型的复杂性提供了宝贵的见解。
参考资料