AI创造 | 化合物定向生成

AI作曲,AI 作画,AI 作诗,AI 续写《红楼梦》...今天介绍的这篇文章帮大家剖析AI 如何做化合物定向生成。

1

为什么要做化合物定向生成

据估计,类药化合物超过1060 ,但目前发现的化合物数量总和才约108。面对如此大的理想与现实的差距,科学家们第一想到的就是虚拟方法,分离不出来?合成不出来?没关系,所谓想的到才能做的到,先用计算机造出来。怎么造呢?

(1) 最直接的方法就是按化合物稳定性原则一一穷举,Reymond教授团队仅用C、N、O和F原子列举最多含有11个原子的化合物,符合稳定性原则的有2640万,同样只用这四个原子进行组合,列举最多含有17个原子的化合物数量就高达1660亿,登录 https://gdb.unibe.ch/downloads/ 网站,发现也就做到了17个原子, 再往下做就是爆发式增长了。除了穷举法,也有其他团队用化合物合成反应的原理生成虚拟的新化合物。同时值得我们思考的是:生成那么多虚拟的化合物如何用呢?

(2) 另一些科学家就想出了虚拟筛选的方法帮我们标出来哪些化合物是最有活性潜力的,这其中最常用的方法就是定量构效关系建模(QSAR)和分子对接(Docking)。随着虚拟化合物库的爆发式增长,对活性的虚拟筛选要求越来越高。最近一篇发表在Nature上的文章就介绍了超大型虚拟数据库的分子对接结果:1.38亿个化合物对接一个蛋白靶标在超算机上需耗时43,563核时,非专业团队已很难负荷这样的软硬件配备。

(3)此外,研究者们从未停止对更高效方法的探索。骨架迁移和inverse QSAR就是代表,将计算机辅助和专家经验相结合,做一些定向的结构改造。

2

AI的破解思路

神经网络算法将AI创造推向高潮,AI模仿梵高,AI模仿莫扎特……。只要给计算机足够的学习样本,他就可以自动抽提样本中的特征,输出带有相应特征的结果。那么理论上,如果输入活性化合物,计算机就会自动输出具有类似活性的化合物了。既实现新化合物的生成,又有活性潜力,这一石二鸟的方法果然已有先驱做过了,而且还成功了。发表结果显示神经网络算法(有些研究还加入自编码器),可以定向生成全新的靶标阳性化合物。

然而,众所周知,神经网络算法的训练需要大量的样本,还需要高性能计算机耗费至少数周的时间才能完成。对于有少量实验数据的科研人员想单纯的试试这个方法也只能望洋兴叹了。所以化合物定向生成的平台,ChemGenerator应运而生。

3

ChemGenerator的原理

如文章所述,ChemGenerator采用的是自编码(autoencoder)递归神经网络(RNN)算法完成化合物的有效生成,即Model 1,再利用迁移学习完成化合物的定向生成,即Model 2。

首先来看一下数据源的选择。递归神经网络算法在AI生成领域应用广泛,同时在语言处理上优势显著。如果说化合物结构图是一种化合物的图形表示,化合物的SMILES格式更像是对化合物的语言描述。这种描述更适合RNN算法。

另一方面,神经网络算法是基于矩阵的运算,所以要对每一个化合物SMILES字符串进行编码,使其转换成一个矩阵。该研究中,国际通用的SMARTS 和 InChI编码都有做尝试,但是另外两个编码字段都比较长,意味着编码的矩阵就会更大,运算耗费也更大,事实也发现生成效果不好。但是SMILES编码有个问题就是同一个化合物在不同数据库的SMILES由于编码算法的不同而不同。该研究训练集的SMILES采用的是与PubChem同样的SMILES编码,所以测试集最好也采用PubChem的SMILES编码算法进行标准化处理。

在算法的选择上,该研究采用了RNN的长短时记忆单元(LSTM),如下图。一个LSTM cell,有一个记忆层C和隐藏层h,分别代表长时记忆和短时记忆,同时通过输入门it和遗忘门ft来选择不同时间上需要保留在记忆层C上的信息,并通过输出门Ot 从记忆层C中产生下一个时刻的h。所以LSTM是通过长时的记忆和最近的输入来计算下一个时刻输出值的概率,预测值即为概率最高的输出值。在运算中会给出种子文本,即部分SMILES字符串,通过种子文本预测下一个字符,然后循环往复直至预测到表示终止的字符。此外,该研究还结合了自编码器。许多研究发现自编码通过将高维数据映射到低维再解码到高维,不仅可以提取出特征结构还可以降低噪音。文献数据也显示结合自编码器LSTM在化合物生成效果上表现更优。该研究通过训练约700万个SMILES字符串,成功实现了有效SMILES的生成。

但ChemGenerator的根本任务是定向生成,接下来需要迁移学习发挥关键作用。迁移学习是指在大样本上训练得到的模型参数迁移到小样本的训练中,从而降低对小样本学习的样本数的要求。这篇文章尝试了释放model 1的最后三层或四层并全连接另外两个隐藏层来训练迁移学习模型参数。

迁移学习模型以对EGFR靶标在细胞实验上检测为阳性活性的化合物进行训练,结果显示新生成的361个化合物中有88%是非训练集中的新化合物。为了评估新生成的化合物的靶标活性,采用了另一个经典的虚拟模型(基于化合物扩展连通性指纹(ECFP)的Boosting Decision Tree模型,AUC=0.946)进行新生成的化合物活性预测,发现63.4%的化合物预测为活性阳性。

目前,该模型已建立web server,平台的模型架构如下图所示,

用户只需上传对某个靶标活性阳性的化合物SMILES的CSV格式文件,该平台即可自动分析并将生成后的化合物SMILES以CSV格式文件在网页输出提供下载或者将结果通过邮件送达。ChemGenerator目前免费对外公开使用,感兴趣的研究者不妨试试。

最后,根据前面的理论介绍,有两个使用tips:一是该模型的训练数据集采用的是与PubChem数据库相一致的SMILES编码,鉴于不同数据库的SMILES可能不同,建议输入数据集统一采用PubChem的编码算法进行标准化SMILES。二是定向生成是让计算机进行数据集的特征提取,建议输入数据集是一组相同特征的化合物,比如均是某个靶标的活性阳性化合物。

今天就聊到这儿,有兴趣的小伙伴可通过DOI: 10.1093/bib/bbaa407阅读全文,或访问网站http://smiles.tcmobile.org/直接使用。在AI时代,能否通过化合物定向生成技术找到治疗疾病的药物,就看各位小伙伴啦!

(0)

相关推荐

  • 药物分子筛选新技术荟萃

    北京超维知药科技有限公司 致力于小分子药物的早期发现,通过深度学习探索化学隐空间信息,以数据科学驱动实验科学.铸造具有全局观分子表征体系,创造适用于算法的分子编码,力争从源头规避临床前以及临床实验中存 ...

  • 当AI开始寻找抗生素:人类终于摘取“高悬的果实”?

    抗生素带给人类的福泽,无论给出多少溢美之词都不过分.抗生素在应用初期,被人们认为是几乎"包治百病"的灵丹妙药,成为20世纪人类最伟大的成就之一. (图题:感谢青霉素,给我回家路) ...

  • 【现场.观点】马健:AI智能药物研发,打开药物研发新引擎

    医药行业有三高,高投入.高风险.高回报:事实上多数人认为只有两高,新药临床失败率极高,故而导致高回报基本为"假".近年来新药研发成功率逐年下降,据悉,当前新药研发临床失败率高达92 ...

  • 北大的这个交叉研究院里,为什么能走出一家AI制药公司?

    在清华建校110周年庆祝大会上,北京大学校长郝平首次宣布,在人工智能教学和科研上,双方将联手建立通用AI实验班. 这意味着,这两家互为榜样,互相调侃多年的对门邻居,在人工智能上首次选择了并肩站队. 而 ...

  • 记忆清除蛋白及其应用的制作方法

    本发明涉及生物工程和医学领域.更具体地,本发明涉及哺乳动物的记忆清除蛋白(hippyragranin)基因及其编码产物(专利名称),及其在促进记忆和遗忘等方面用途.此外,本发明还涉及含记忆清除蛋白基因 ...

  • 药物发现中的人工智能:关于物理数据和生物数据的讨论

    前言 人工智能(AI)最近在图像和语音识别等领域产生了深远的影响,这一进展已经转化为实际应用.然而,在药物发现领域,这种进展仍然很少,其中一个原因是所使用的数据本身.不同领域的数据存在显著的差异,即图 ...

  • 药物发现CRO成都先导开盘大涨超90%,构建4000亿种小分子DEL库,如何年盈利逾亿元?

    4月16日,药物发现领域头部CRO成都先导药物开发股份有限公司(简称:成都先导:股票代码:688222.SH)正式登陆上海证券交易所科创板,由中国国际金融股份有限公司担任主承销商,总计发行4068万股 ...

  • 它不是药神

    原创2021-06-18 07:28 石三香 出品丨虎嗅医疗组 作者丨石三香 你相信 AI 能帮我们更快地发现更多新药,甚至找到人都找不到的药吗? 不管你信不信,资本正在相信.国内 AI 的新风口-- ...

  • 专题报告 | 人工智能在新药研发中的应用现状与挑战

    本文选自<药学进展>2021年第7期,作者刘晓凡 1,孙翔宇 1,朱迅 2* .<药学进展>杂志是由中国药科大学和中国药学会共同主办.国家教育部主管 (1. 火石创造,浙江 杭 ...

  • 腾讯云深平台取得突破进展:发布骨架跃迁新算法

    腾讯云深平台在药物AI算法研究领域取得新进展. 传统药物研发存在周期长.费用高和成功率低等特点,新药研发背后的分子设计需要成千上万次实验,准确性亟待提高,使用AI技术能极大改善这一现状.8月下旬,腾讯 ...