BioRxiv｜基于表型和化学结构预测化合物活性 / 开普饭

文章来源于微信公众号智药邦（ID：PHAIMUS）

深度学习可以用来预测化合物的药理活性。然而选择什么类型的数据，预测性能最好呢？

2020年12月16日，麻省理工学院Tim Becker和Kevin Yang等人在预印本平台bioRxiv发表论文“Predicting compound activity from phenotypic profiles and chemical structures”。该研究发现，结合表型数据和化学结构数据来预测化合物活性，是早期药物发现过程中一种准确有效的方法。

以下是全文主要内容。

摘要

深度学习的最新进展使人们可以利用化学结构和表型数据来准确预测化合物的检测结果，从而减少药物发现过程中的筛选时间和成本。在预测中，不同的高通量数据集（比如化学结构、图像和基因谱数据）的相对价值一直是未知的。在这里，我们比较了它们预测化合物活性的能力。

结果显示，基于深度学习的化学结构特征提取方法预测化合物活性的能力显著。基于图像的方法表现得更好，但需要进行湿式实验室实验。基于图像的方法的表现优于基于基因表达的方法，而且成本较低。此外，这三种方法是互补的，联合起来可以预测不同化合物的生物活性。我们的研究表明，对于许多试验来说，从表型数据和化学结构中预测化合物的活性，是早期药物发现过程中一种准确有效的方法。

前言

从化合物的化学空间说起。

在药物发现中，由于化合物可能的化学结构（化学空间）的理论范围太大，因此无法在物理实验中逐一测试。制药公司虽然已经合成并测试了数以百万计的化合物，但这些化合物也只代表了所有可能结构中的一小部分。

如果计算模型能够以极低的成本预测化合物的检测结果，会怎样？这将如何改变药物发现？预测模型的确显示了一些前景。迄今为止，大多数的尝试都是使用化学结构的各种表征来预测活性。

这种方法虽然不需要对化合物进行实验室实验，比物理筛选要便宜得多，而且可以获得巨大的搜索空间，但是预测结果很大程度上取决于给定训练数据的数量、质量和多样性，因此预测性能常常受限。

那么如何提高预测性能？

增加化合物基于化学结构的特征，如增加与每个小分子相关的实验信息，可能会带来相当大的改进。如果有一种方法，可以一次性对数百万种化合物进行分析，获得数据进行建模，用于预测目标化合物的活性，那再好不过了。

但实际情况是，大多数的分析技术，如测量蛋白质组或代谢组的技术，很难扩展到数百万个化合物。

不过也有例外，比如通过L1000检测法进行的转录组分析具有低成本、高通量的特点，已经成功应用于作用机制（MOA）的预测。此外基于图像的分析是一种成本更低的高通量分析方法。

于是在这项研究中，研究人员尝试增加与化学结构相关的特征，来提高化合物活性预测模型的性能：在对化学结构表征进行训练时，结合两种不同类型的实验产生的表型图谱数据，细胞形态学（细胞画像检测）数据和基因表达（L1000检测）数据（图1）。

图1A.工作流程概述

研究方法

数据集

研究使用的是一个超过30,000个化学物质的化合物库。大约10,000个来自小分子库，2,200个是药物和小分子，其余18,000个是以多样性为导向合成的新化合物。

化合物的活性数据来自U2OS(人骨肉瘤细胞) 。U2OS被安置在384孔板中，用这些化合物处理5次，然后收集500多项检测项目的数据，最终376项检测项目的数据被用于分析。用细胞画像(Cell Painting)来产生化合物对应的细胞形态学数据，用L1000平台来产生化合物对应的转录谱数据。

库中共有16979个化合物包含了研究所需的三类信息（细胞图像、基因谱和检测结果）。研究创建了一个包含13,582个化合物的训练集和一个包含3,397个化合物的验证集。

图1B 本研究中使用的数据结构图1C用于预测的检测结果的类型

Chemprop软件被用来表示化学结构(CS)、训练用于学习化学结构嵌入(embeddings)的定向信息传递神经网络。

基于图像的形态学（MO）数据来自于细胞画像。细胞画像使用6种染色剂来捕捉细胞的荧光图像，以标记8个主要的细胞结构，使用CellProfiler软件对五通道高分辨率图像进行处理，分割细胞并在单个细胞水平上计算一组1500+形态特征。

L1000检测法以高通量的方式测量细胞的转录活性，被用来测量化合物处理后的U2OS细胞的基因表达。

预测模型

本研究的预测模型是一个前馈的、完全连接的神经网络，输入化合物的特征后，输出每个化合物在每次分析中的概率。

数据融合考察方法

为了考察多种数据形式融合以后的特征，研究使用了两种策略：早期数据融合和后期数据融合。早期数据融合是指将数据形式的特征向量串联成一个单一的向量，后期数据融合是指每一种数据形式都被用来训练一个单独的模型，然后用最大运算符将新样本的预测分数汇总。

模型性能指标

研究使用了接收操作特征（ROC, Receiving Operating Characteristic）曲线下的面积（也被称为AUC）来评估预测器的性能，我们将AUC>0.9设定为可以准确预测的阈值。第二个性能指标是在376个检测项目中，可以被准确预测的检测项目的数量。

结果

用表型数据训练的预测器可以提高预测效率

我们从16,979个化合物中的每个化合物的两个高维检测中提取了实验结果，包括来自L1000检测的基因表达数据（GE）和来自细胞画像检测的形态学数据（MO）（见图1B和方法）。我们还使用Chemprop计算了化学结构谱（CS）。

于是，研究的预测建模可以基于CS的模式、基于MO的模式或基于GE的模式，也可以基于组合的模式。

研究使用数据的一个子集（13,582个化合物），针对不同类型数据的单独的或者组合的情况，来训练预测器。结果显示，我们用表型数据训练的预测器可以提高预测效率。

形态学特征数据是预测的最佳数据类型

那么，选择哪一种数据类型来训练，可以获得最佳的预测性能呢？

我们对每个数据类型进行单独的考察，发现用形态学数据来建模，能够准确预测的检测项目最多。在376项检测项目中，可以准确的预测67项检测的结果（图2A）。相比之下，用化学结构数据来建模可以准确的预测43个检测项目，用基因表达谱来建模可以准确的预测23个检测项目。

图2.使用单一数据集可以准确预测的检测项目的数量。A）对单个数据集建模的模型性能要求越高，可预测的检测数量越少。我们将准确检测定义为AUC大于0.9（蓝色的垂直虚线）。B) 右图显示了每种数据类型共同的或单独的准确测定（AUC>0.9）的数量。柱状图显示由单一数据类型正确预测的检测项目的分布。C）由每个单独的数据类型很好地预测（AUC>0.9）的检测项目的数量。

化学结构、形态学和基因表达谱为预测提供了互补信息

我们发现每个数据类型单独预测的检测项目之间重叠较少（图2B），这表明了不同的数据类型之间显著的互补性，即每种数据类型都能捕捉到不同的生物相关信息。事实上，376个检测项目中只有3个（<1%）是重叠的，即单独使用三种类型中的任何一种都能准确预测。

这三种数据类型联合起来，可以识别总共107种检测项目，远远高于最好的单独的数据类型（形态学，67种）。

那么，是否可以有一个综合的策略？

将形态学数据添加到化学结构信息中可提高预测能力

形态学和基因表达谱需要湿式实验室实验，而化学结构总是可用的，即使是理论上的化合物，也可直接计算。因此，我们以化学结构为基础，探讨了在化学结构上添加其他数据类型的价值。与单独的化学结构数据相比，将形态学数据添加到化学结构数据中的方式，有可能预测超过一倍的检测项目（92 vs 43；图3C与图2C）。

图3.使用组合的数据类型可准确预测的检测数量。准确的预测被定义为准确度大于0.9AUC的模型。在此分析中，我们考察了使用后期数据融合的所有四种组合。CS+MO（化学结构和形态学），CS+GE（化学结构和基因表达），GE+MO（基因表达和形态学），以及CS+GE+MO（所有三种模式）。图3A图显示了融合数据类型的共同或独特的准确测定的数量。中间的柱状图显示融合模型正确预测的检测类型的分布。B）在预测性交叉验证实验后，使用后期数据融合的模式组合获得准确的检测项目的数量。C）预测器的回顾性表现。

我们寻求一种改进的策略来整合来自不同类型的数据。在实践中，数据融合策略必须在保持准确性和引入各种数据源的噪声之间进行权衡。因此，我们进行了一项分析，以交叉的方式结合来自不同数据类型的结果。与早期数据融合相比，我们发现后期数据融合提供了更好的性能。

获得形态学概况需要物理实验，而基于化学结构的预测则完全可以虚拟进行。尽管如此，我们得出结论，考虑到细胞画像实验所包含的生物信息，以及低廉的成本，制药公司和学术界可以使用该方法对大型化合物库进行分析。运行这种单一的测定方法的成本与典型的筛选测定方法差不多，但会减少随后需要的物理筛选的次数。

将基因表达谱添加到化学结构信息中，在某些情况下提高了预测能力

当单独测试时，基因表达谱是最弱的数据类型，单独的化学结构数据带来的性能是其两倍，单独的形态学数据带来的性能是其三倍（图2c）。令人惊讶的是，通过后期的数据融合将基因表达谱添加到化学结构中，实际上会使性能恶化，只产生32个预测良好的检测，而仅CS就有43个（图3B）。

不过这也跟数据融合方式有关。将单独的CS和单独的GE与CS+GE的数据融合相加，会增加两个测定项目，使总数达到64个。

所有三种数据类型的互补性

数据类型越多，预测结果越好吗？

我们曾假设，所有三种类型的数据融合将提供比任何单独类型更好的检测预测能力。然而，数据融合的CS+GE+MO产生了62个预测良好的检测项目，少于数据融合的CS+MO（71个检测项目），其本身与单独的MO（67个检测项目）相差无几。可以这样总结：这些检测结果可以通过采取两种数据类型中最好的一种，即单独的CS+单独的MO来确定。这强调了改进数据融合策略的必要性。

我们的结论是，如果所有的数据类型都可用，它们对提高预测能力都是有用的。我们还得出结论，在这种情况下，形态学特征比基因表达特征更有价值（基于我们具体的方法）。

模型可以预测多样化的检测类型

用于模型训练的形态学和基因表达谱数据来自于细胞。我们发现，模型可以正确预测基于哺乳动物细胞试验的化合物活性（图1C），但也包括其他各种试验类型，如细菌和生化试验（图2B，3A）。

有趣的是，大多数测定可以用单一的数据类型来预测，而其他一些测定则得益于结合各种类型的实验数据。例如，MO准确地预测了两种细菌检测，而融合CS+MO则预测了四种（在22种可用的检测中）。

图4.不同数据类型的检测项目的预测准确性。图A和B选择了四种检测方法，从左到右依次为：新隐球菌（细菌），FGF-22（生化），艰难梭菌毒素（细菌），白细胞介素10（细胞）。A）使用单一分析方法时预测器的性能。B）使用组合分析方法时预测器的性能。

讨论

鉴于不断改进的计算方法（特别是深度学习）和不断增加的丰富的数据来源，预测化合物的生物活性可能成为药物发现的强大策略。在这里，我们使用Chemprop，最先进的从化学结构中学习预测器的软件，将分子指纹与从图像（Cell Painting）和基因表达（L1000）中获得的表型特征相结合。

回过头来看，我们发现数据融合策略只增加了3-10%的良好的预测检测项目。我们认为，这说明需要进一步研究如何最好地整合不同的数据类型，分析每种类型的优势以及它们组合的互补性。

我们相信这些发现支持在药物发现和化学生物学过程的早期广泛采用形态学分析。鉴于进行细胞画像的成本很低，在许多情况下，对整个机构的化学库进行分析是实际的。然后，由几千个化合物组成的中等规模的数据库将在每个感兴趣的新检测中进行测试。研究人员将评估是否能在这些数据上训练出足够准确的预测器，单独使用CS，单独使用MO，或CS+MO的数据融合组合。

在大多数学术界和工业界的筛选中心，准备一个17,000个化合物的训练测试集，就像我们在这里使用的那样，是切实可行的。

数据和代码的可用性

形态学和基因表达谱可以从以下网站下载：

http://www.broadinstitute.org/mlpcn/data/Broad.PNAS2014.ProfilingData.zip

细胞画像可以从以下链接获得：

http://gigadb.org/dataset/100351

最新版本的形态学资料也可从以下获得：

https://registry.opendata.aws/cell-painting-image-collection/

用于训练机器学习模型的Chemprop软件和源代码可以在以下链接中找到：

http://chemprop.csail.mit.edu/

参考资料

https://www.biorxiv.org/content/10.1101/2020.12.15.422887v1

BioRxiv｜基于表型和化学结构预测化合物活性

相关推荐