CHEM SCI|分子Transformer模型预测酶促反应

文章来源于微信公众号 智药邦(ID:PHAIMUS)

今天给大家介绍的是Chemical science上有关分子Transformer模型预测酶促反应的文章"Predicting enzymatic reactions with a molecular transformer"。

人工智能可以用于预测化学反应,这其中,就包括了由酶作为催化剂进行催化的化学反应,也就是酶促反应。

虽然酶促反应可以简化并实现传统试剂无法完成的化学合成,但是对人们来说,预测一个化学反应是否可以被酶催化是十分困难的。该文中,作者基于美国专利商标局(USPTO)的一百万个化学反应与 32,181 个酶促转化过程组成的数据集,通过多任务迁移学习来训练Transformer模型。最终结果显示,该酶促反应预测模型可以非常准确地预测酶促反应的产物的结构和立体化学信息。

1.前言

有机合成的生物催化指是利用酶催化有机合成,通过酶催化反应实现传统化学试剂无法实现的反应,可以用于重新设计和简化合成路线。然而,由于难以预测特定的底物是否可以被酶转化为所需的产物,生物催化仍然面临很大挑战。

计算机辅助合成设计(CASP)主要包括应用人工智能的方法进行反应预测和逆合成分析。在本文中,作者探讨了计算机辅助合成设计能否用于预测有机合成中的酶促反应。作者使用基于Sequence to Sequence的Transformer模型,结合多任务迁移学习对酶促反应的产物进行预测(如图1)。

与之前的迁移学习方法相比,该研究的创新之处在于将底物的SMILES语言描述和酶的人类语言描述结合起来。这些更多样化的输入,使得酶反应的描述,从405个SMILES的原子标记增加到几千个原子和语言标记,这意味着该transformer模型不仅要学会解释SMILES语言,还要学会解释自然语言(如人类专家用来描述酶和它们的突变的语言)。

图1:酶促反应Transformer训练的概念。USPTO数据集包含反应式中的反应物、试剂、产物的SMILES。ENZR数据集包含反应SMILES以及附加的文本组件。

2.数据集

USPTO数据集

实验过程中所用的USPTO数据集源自于Lowe等人的专利数据库,该数据集包含大概一百万个反应的原始SMILS和随机的SMILES,且保留了其立体化学的信息。

ENZR数据集(酶促反应数据集)

作者在Reaxys数据中检索“酶促反应”关键词,并下载了酶促反应的数据,然后经过一系列预处理最终得到32, 181个数据。

作者对该数据集进行了评估。具体是对酶促反应的酶的描述中带有“-ase”后缀(后缀“-ase”是酶的名称的单词)的出现频率进行了分析(图2)。分析发现,该数据集包含多种酶促反应,且偏向于生物催化领域中最常用的酶,如脂肪酶和脱氢酶等。这证明了该数据集能够为训练模型提供广泛的基础以及不同酶的特异性。

为了可视化ENZR数据集,作者使用了他们最近报道的树图(TMAP)算法。

图2:ENZR数据集的分析。(a)反应次数取决于句子中出现了多少“-ase”词。(b)前 15 个“-ase”词的频率取决于每个反应的酶名称计数。(c) TMAP说明了反应的相似性,这里对(b)组合中列出的10个最常见的“-ase”单词进行颜色编码。“OTHER”类别包括除了前10个“-ase”单词之外的“-ase”词的反应,以及包含一个以上“-ase”单词的反应。右下角插图:TMAP突出了对映选择性和动力学策略。

3.模型的训练和评估

酶Transformer预测模型是在Schwaller等人的分子Transformer模型的基础上进行训练的。为了将酶的信息整合到模型中,作者使用Hugging Face Tokenizers库对ENZR数据集中描述酶的句子进行了标记。经过预处理后,产生了可用于描述ENZR数据集的3004个原子和语言标记的词汇。

然后作者将USPTO数据集和ENZR数据集划分为训练集、验证集、测试集。其中ENZR数据集为8:1:1的比例。在数据集的基础上,作者使用OpenNMT和Pytorch训练模型,并通过提供底物的SMILES来评估测试集中的3200个反应。

图3(A)显示了作者对测试集的top-1,top-2预测结果的正确性以及无效SMILES的分析结果。作者通过三种情况(忽略酶信息仅保留底物信息、以“-ase”单词的形式添加酶信息、使用完整的酶名称作为酶信息)来对比不同模型的性能,发现使用多任务迁移学习结合USPTO和ENZR数据集、使用完整的酶名称作为酶信息来训练的transformer模型,达到了很好的预测性能。

图3:A)各种模型的酶反应测试集的最高预测精度和无效的SMILES准确率。(B)依赖于句子中“-ase"单次数量的的测试集的准确率。(C)依赖于句子中的“-ase”单词组合在训练集中出现的频率的测试集的准确性。(D)真实预测率与置信度得分的对比。(E)仅测试集的脂肪酶反应的最高预测精度和无效SMILES。(F)仅最高预测准确度和测试组对映体拆分反应的无效SMILES。

进一步确定多任务迁移学习(STL)方法的性能,作者重新将数据集划分为训练集、验证集和测试集进行训练。但是预测精度并不明晰。

因为ENZR数据集中一些反应包含多种酶且不标明主酶和辅助因子再生酶,所以作者对比使用多种酶和单一酶的预测结果,预测结果显示使用多种酶的反应的酶催化预测准确度较低(图3B)。但是如果省略辅因子再生酶或将其替换为等效酶,模型也可以产生正确预测。

另一方面由于Transformer模型往往需要大量的数据才可以获得良好的性能,作者测试了训练集中酶名称出现次数的预测准确性,结果如图3(C)所示,相对于训练集中最丰富的的脂肪酶达到了接近80%的预测精度。此外,作者分析得到在完整句子中使用STL的最佳Transformer模型中,预测置信度得分与准确度之间有明显的关联(图3 D)。

由于包含“脂肪酶”的子集在测试集中表现最佳,接下来作者用所有模型对该子集进行了详尽的评估(图3E)。评估后发现,使用STL模型和完整的酶描述在两个数据集上训练的模型对脂肪酶表现最佳。然而,在仅有脂肪酶的测试组中,不同反应之间的酶信息的混乱并不像完整组那样显著地降低预测精度,也就是说交换酶信息不会引起任何变化。

作者还从对映体拆分的角度展开了讨论,预测结果显示Transformer能够像整体酶催化一样成功地学习对映体选择性酶的对映体偏好(图3E)。为说明模型在训练过程中看不到来自测试集的反应,作者在图4列举了使用完整句子的MTL的Transformer应用于各种底物的酶例子,这几个例子说明了酶的信息对预测酶反应结果具有附加价值。

图4:具有完整句子的底物使用MTL模型对各种酶预测的例子,说明了模型在训练过程未观测到测试集的反应预测情况。不同的颜色代表不同的置信度,高置信度预测(得分> 98%,黑色)、不确定性预测(得分80-98%,蓝色)和低置信度预测(得分< 80%)。

4.酶促反应模型正确和不正确预测的案例

接下来,作者分别从正确和错误预测结果的分析探讨模型的性能。

如图5所示,作者列举出了几个正确预测的反应案例来表示该模型所预测的酶促反应类型。从预测正确的反应类型可知,Transformer模型在酶促反应的预测中不仅能够预测正确的反应产物,也能对对映体解析反应产生正确的预测结果。

图5:预测正确的图例

另一方面,作者随机抽取了200个涵盖各种反应类型和酶的反应,从预测错误的反应角度对模型的预测性能进行更深入的分析(图6)。分析结果显示,不正确的预测有时只是反映了数据库中的错误(反应10-12)。

图6:错误预测的图例

总体来看,预测酶反应的Transformer模型只能根据从ENZR数据集中的例子所学到的信息来预测反应产物的结构,但同时也代表该模型能够应用于预测在尚未记录的数据集中的反应可以选择哪种酶进行生物转化。

5.结论

在将通用USPTO数据集作为 transformer模型迁移学习的数据集的基础上,该文中使用了更复杂的语言信息(几千个语言和原子标记的扩展词汇,以文本格式描述酶促反应)。尽管使用的酶促反应ENZR数据集相对较小,但最终的酶促Transformer模型能以极高的准确率预测酶促催化反应的产物,包括对映选择性反应。酶促预测模型的成功应用证明了这种多任务迁移学习的方法可用于将实验数据整合到预测模型中,来帮助化学家实现化学合成的生物转化。

在该研究中,虽然该模型在使用基于酶的完整描述的多任务迁移学习的情况下,取得了最佳的预测精度,但是,模型的预测性能受到了数据库的大小和质量的影响。这也就意味着,未来研究人员可以通过使用更大和更高质量的训练数据集来优化提升模型的性能。

参考资料

David Kreutter, Philippe Schwaller, Jean-Louis Reymond, Predicting enzymatic reactions with a molecular transformer, DOI: 10.1039/d1sc02362d

(0)

相关推荐