BRIEF BIOINFORM|基于BAN的策略,来改善基于SMILES字符串的分子表征学习

今天给大家介绍的是 Briefings in Bioinformatics上结合SMILES枚举(SMILES enumeration)策略,使用基于注意力机制(attention mechanism)的双向长短期记忆(BiLSTM)模型-BAN,进行基于SMILES的分子潜在表征学习的文章 "Learning to SMILES: BAN-based strategies to improve latent representation learning from molecules"。
作者提出基于注意力的双向长短期记忆模型-BAN,用于基于SMILES字符串的分子特征预测。同时采用SMILES枚举(SMILES enumeration)在训练阶段大幅增加标记数据的数量,在预测阶段纠正模型预测偏差。该策略有效解决了基于SMILES的深度学习(DL)方法中模型标记数据稀缺的问题,从而提高从SMILES字符串中学习潜在特征的性能。在与目前最先进的几种模型比较中,该策略具有更强的竞争力。

1.研究背景

近年来,快速发展的深度学习(DL)方法可以在端到端的训练过程中从原始数据中自动提取有用的特征。这种数据驱动的方法可以大大减轻对广泛专业知识的依赖,并为广泛任务中的应用程序提供出色的灵活性和可扩展性。
简化分子输入行输入规范(SMILES)字符串以ASCII字符的形式对分子的所有组成和结构信息进行编码,在化学信息学中被广泛用作灵活的分子结构存储格式。在标记数据足够的情况下,各种DL模型可用于文本处理。这启发我们应用相关的DL模型从SMILES字符串的复杂语法中解析出分子的潜在有用信息。
然而,由于获得类别标签的成本很高,大多数与生物活性相关的数据集都非常有限,使得基于SMILES的DL模型存在训练数据不足的问题,极大地限制了它们的有效性和泛化能力。因此,在大多数分子特性预测任务中,基于SMILES的DL模型与传统的特征工程方法或新提出的图神经网络(GNN)相比竞争较低。
在这项研究中,作者的目标是通过一种新的DL模型结合训练和预测阶段的数据增强策略来改进分子的表征学习。该模型可以从复杂的SMILES字符串中更好的学习分子表征。该策略在11个实际任务(包括回归和分类任务)中表现出良好的竞争力。

2.数据集

该研究从ADMETlab中采用了11个高质量的吸收、分布、代谢、排泄和毒性(ADMET)数据集,这些数据集的大小从数百到数万不等。所有数据集以8:1:1的比例分为训练集、测试集和验证集。SMILES字符串的长度跨度非常大,为了保证数据集拆分的平衡,作者采用了按长度分层抽样来拆分数据集。

3.模型框架

3.1 BAN模型框架 
BAN的整体架构由几个组件组成(图1):一个输入层、一个BiLSTM层、一个多步注意力层和一个前馈神经网络。BiLSTM层和多步注意力层构成了网络的核心。
图1:BAN模型的结构
3.2 BiLSTM层
LSTM主要思想是引入自适应门控机制来保留长期信息,这使得LSTM在处理序列数据(如非结构化文本)方面表现出色。在本文中,我们使用BiLSTM来聚合来自前向和后向的信息。具体来说,将SMILES输入到输入层然后逐步输入BiLSTM,接着将BiLSTM的输出结果输入一个前馈神经网络(feed-forward neural network)经过其进一步处理,生成分子标记(tokens)的上下文敏感表征(context-sensitive representations)。
3.3多步注意力层
基于输入SMILES标记的上下文敏感表征,我们采用多步注意力机制来构建分子表征。具体来说,多步注意力机制根据历史信息关注最相关的特征,而不是一步生成注意力权重。 算法循环执行T次,提取LSTM的最终隐层状态作为分子表征。然后,分子表征被馈送到前馈神经网络以获得最终预测。

4.实验

4.1过程概述
实验过程如图3所示,首先,我们将特定数据集以8:1:1的比例拆分为训练、测试和验证集。接下来,训练集中的每个SMILES字符串都被完全枚举扩增(图2),再将其标记为数字。然后,将这些经预处理的数据用于训练和调整BAN模型。在预测阶段,测试集中的每个分子也被枚举扩增,我们计算出所有被扩增数据的预测平均值作为最终预测。某些分子的SMILES字符串数量可能多达数百个,这超出了研究的需要。根据研究在结果部分的实验,作者将上限设置为50。
图2:SMILES枚举
图3:实验流程
4.2模型训练和评估
该模型使用标准梯度下降法通过Adam优化器进行训练。均方误差和修正的交叉熵函数分别被用作回归任务和分类任务的损失函数。根据每个类别的比例分配不同的权重来处理数据不平衡问题。多数类别会比少数类别获得相对较小的权重,可以防止多数类别主导整个损失。回归模型通过平方决定系数(R2)进行评估,分类模型通过ROC-AUC曲线进行评估。作者使用提前停止来避免过度拟合并设置最大训练epoch为100。为了减少随机误差,每个数据集都用随机数据集拆分重复训练10次,并将计算出的平均值报告为最终性能。
4.3 评估不同策略在11项任务上的表现
研究评估了不同策略在11项规范任务上的表现,这些策略包括:(1)使用双向LSTM作为基本模型,(2)引入注意力机制,(3)在训练阶段进行数据增强,(4)在数据预测阶段的数据增强。
表3中的结果表明,双向LSTM和注意力机制都可以提高模型效果。并且,将BiLSTM模型和注意力机制结合起来,其效果可以超过普通LSTM 1-4%。
具有数据增强的BAN模型在回归任务中表现出R2提高5-15%,在分类任务中AUC提高2-5%。这些结果表明,训练阶段的数据增强可以使模型学习更有用的特征,并有利于模型更好地泛化。
预测阶段数据增强可以使LSTM模型在所有任务上的表现始终提高 1-3%。证明该策略可以纠正预测偏差并提供更准确的预测。
表3:不同策略在11项任务上的表现

4.4  与先进模型的比较

该研究的BAN模型与基线方法的性能比较列在图5中。基于分子指纹的ML方法在分类任务上表现出比回归任务更好的性能。这些结果表明,分子指纹中包含的分子片段信息可以胜任分类任务,但对于回归任务还不够。当提供足够的标记数据时,两个GNN模型(GCN和Weave)表现良好。但是,如果标记数据量不足,则其性能会相对较差。我们提出的BAN模型配备了有效的数据增强策略和强大的从SMILES字符串中提取潜在信息的能力,显示出非常有竞争力的性能。
总的来说,BAN模型在11项任务中的8项上优于基线模型,并且以非平凡的方式超越了最先进的模型在某些任务中的余量。在其他三项任务中,BAN的表现也与最好的任务相当。与之前的方法相比,整体改进为17.3%(分类任务为0.6%,回归任务为16.7%)。这些结果充分证明了所提出的基于SMILES的BAN模型以及几种优化策略达到了分子表征学习的新水平,为分子特性预测提供了更好的方法。
图5:BAN模型和其他模型的性能比较:回归任务(A)、分类任务(B)

5.总结

本文提出了基于注意的BiLSTM模型用于基于SMILES字符串的分子性质预测。另外,还利用SMILES枚举来增加训练集的数量和多样性,这有助于该模型挖掘字符串中真正相关的特征,提高泛化能力。此外,SMILES枚举还用于纠正模型的偏差,并在预测阶段进行更精确的预测。实验的结果表明,在大多数情况下,基于注意力的BiLSTM模型优于目前最先进的策略,具有良好的表现。

参考资料

Neves BJ, Braga RC, Melo-Filho CC, et al. QSAR-based virtual screening: advances and applications in drug discovery.Front Pharmacol 2018;9:1275.
(0)

相关推荐