Nature:全合成AI,通过化学版“图灵测试”

现如今人工智能(AI)发展非常迅速,已经不知不觉间深入我们的日常生活。同样,AI也正在快步走进科研世界,有机化学领域亦不例外。在这个投料、监测、纯化、表征都能一条龙全自动、高通量完成的时代,各位有机从业者在互相调侃何日下岗的时候,心中多少还留有一丝丝幻想——拼劳力拼不过机器,但动脑筋总还不至于会输……吧?在有机化学领域,最烧脑的莫过于天然产物全合成,多少博导为此皓首,多少博士为此延期。特别是结构复杂、需要多步合成的天然产物,设计合理的合成路线,更是要求化学家知识、经验、创造力缺一不可,甚至往往还需要一点点运气。这样的工作,AI总比不过人脑吧?
现状也的确如此。虽然已经多个化学软件可以自主地计划合成路线,但这些程序往往一次只能“思考”一个反应步骤,并且到目前为止也仅局限于相对简单的目标化合物,“能力”一般。可以这么说,如果真要设计这类简单化合物的合成路线,与其敲键盘点鼠标输入,还不如给人类化学家一张纸一支笔,几分钟内就可以搞定,简单又高效。而对于让人类化学家都头痛的复杂天然产物,现在还没有AI算法能拿出大家认可的可行合成路线。但别忘了,AI最大的特点就是进步神速。大家可能还记得AlphaGo在2016年对阵围棋世界冠军李世石时还会输一局,但短短一年后AlphaGo Master就能以60:0横扫所有人类对手,而更进一步的AlphaGo Zero根本不再学习人类棋手的经验,通过自我博弈学习,轻松打败AlphaGo Master。
该来的终究要来,谁也阻挡不了时代的脚步。这不,AI正式地向复杂天然产物的多步全合成发起了挑战。前不久,波兰科学院Bartosz A. Grzybowski、Jacek Mlynarski、Karol Molga和美国西北大学Milan Mrksich等研究者对化学软件“Chematica”(点击阅读相关:报道一报道二报道三)进行了改进,使其可以设计出复杂天然产物的全合成路线。该程序设计的路线与人工设计的路线几乎没有差别,并且在实验室中成功地验证了该程序设计的三种天然产物的合成方法。相关成果发表在Nature 上。
在可能的反应网络上进行全自动合成路线设计。图片来源:Nature
说起Chematica,这也不是它的首秀了。从问世到现在的多年中,不乏各种关于Chematica的文章报道,并且还大多刊发在一区期刊。这次它强势来袭,荣登Nature 确实是得到了实质性的升级强化。尽管此前版本的Chematica能够有效地设计合成路线,但要想将其扩展到复杂天然产物的合成中仍颇具挑战且需要大量改进(图1)。为此,作者在Chematica中引入机器学习算法,教它“学会”超过十万个基于机理的反应规则,尤其是立体选择性和骨架转换,同时为它建立筹划合成路线的各种规则,最后用神经网络算法进行打分排序。说了这么多,我想大伙应该对算法啊、代码啊之类的并不感冒。最关心的可能也就这么几个问题,这程序算不算AI?这程序给出的路线靠不靠谱?这程序是不是无所不能到任何复杂结构都能给出合成路线?
要评价一个程序算不算AI,有个经典的评判标准,那就是大名鼎鼎的“图灵测试”(Turing test)。顾名思义,这是由“计算机之父”艾伦·麦席森·图灵提出的一种判别机器是否具有类似人类智能的测试,简言之就是让测试人员去判断跟他交换信息的是真人还是机器。为了验证Chematica的能力,作者进行了化学版的“图灵测试”,他们称之为“类图灵测试(Turing-like test)”。他们收集了40个全合成路线,其中20个来自近20年来各种有机化学期刊,另外20个则完全由Chematica设计。随后,邀请18名合成化学家对这40个全合成路线进行来源推测评分(0分代表人工设计,10分代表程序设计)和精妙程度评分(0分代表毫无创新,10分代表精妙设计)。
从所有路线的平均HVM得分来看,Chematica设计的路线仅比文献路线高0.6分(⟨HVMhuman-designed⟩ = 4.58, ⟨HVMmachine-designed⟩ = 5.17);而从设计的精妙程度来看,Chematica设计的路线更精妙一些(⟨Ehuman-designed⟩ = 4.55, ⟨Emachine-designed⟩ = 4.75)。此外,作者还为每位合成化学家绘制了接受者操作特征曲线(receiver operating characteristic curve,ROC曲线)。ROC曲线下的面积(area-under-the-curve,AUC)为0.53,标准误差为0.03,这意味着化学家组的猜测与随机猜测一样。总之,这些结果说明合成化学家们无法有效分辨哪些路线是来自人工设计,哪些路线来自Chematica。也就是说,Chematica通过了化学版的“图灵测试”,是当之无愧的AI。
化学版的“图灵测试”结果。图片来源:Nature
有同学可能会问了,会不会是这18名合成化学家的水平不够呢?作者在全文最后的致谢部分对参评专家进行了感谢。不知道大家如何评价,至少本君认为这个阵容还是相当强大。
18名合成专家名单。图片来源:Nature
下一个问题来了,Chematica设计的合成路线是否仅仅纸上谈兵,无法实现呢?为此,作者选择了三个复杂程度不同的天然产物作为研究对象。以最简单的天然产物(-)-Dauricine为例,这是一种有效的自噬阻断剂和抗癌剂,迄今为止仅能通过Bischler-Napieralski反应以外消旋的形式合成;第二个是最近分离出来但尚未合成的iboga alkaloid,又称为(R,R,S)-Tacamonidine;最后是2017年分离出的Lamellodysidine A,它是一种桥联的多环倍半萜,含有一个四环碳骨架,具有七个连续的(包括三个季碳)立体中心和一个对酸不稳定的半缩醛,迄今为止仍无法实现其全合成。相比之下,Chematica为上述三个天然产物设计了多条合成路线,并从中选择了一条最佳的合成路线。基于Chematica给出的合成路线,作者在实验室中成功地将三种天然产物合成出来,且反应的收率较好。大家可以欣赏一下来自AI的全合成路线。
Dauricine的全合成。图片来源:Nature
(R,R,S)-Tacamonidine的全合成。图片来源:Nature
Lamellodysidine A的全合成。图片来源:Nature
不知道各位同学看了上面三个合成路线做何感想?咱们的读者藏龙卧虎,其中肯定有全合成牛人,不知道各位花多少时间能设计出这样的合成路线呢?不怕你们笑话,以本君卑微的水平,恐怕打死也设计不出来。所以,做全合成的同学,是不是有点兵临城下、如芒在背的感觉呢?先别慌,这程序目前的版本还没那么万能。作者在文中直言不讳,Chematica对一些天然产物(如紫杉醇、Ryanodol、CJ-16,264)还不能设计出合适的合成路线。作者对其可能的原因也进行了猜测分析,同时提出了一些Chematica改进优化方向。也许当算力下一次划时代突破时,天然产物全合成的桂冠已被人工智能摘下,有机化学行业又将重新洗牌。请诸君拭目以待。
(0)

相关推荐

  • 药物合成路线—化学制药工艺学2

    API是用于制造药物制剂的活性成分,通常是原料药.其一般通过化学合成.半合成以及微生物发酵或天然产物分离获得,经过一个或多个化学单元反应及其操作制成的.原料药的合成路线研究是药物研究和生产的重要组成部 ...

  • 计算机辅助药物合成路线设计—化学制药工艺学5

    逆合成分析法设计药物合成路线的最大挑战在于--当今的化学反应多不胜数,纵使是具有丰富经验的化学家也无法完全掌握.随着计算机和网络技术的发展,化学家建立了庞大的化学文献数据库.这些数据库收录了已公开发表 ...

  • 全合成(2)

    (±)-Russujaponol F 的传统合成路线应用了高达160 ℃ 的温度.剧烈的反应条件等,非常不适合大量合成.今年,余金权教授发表了基于碳氢键活化的快速全合成. C-C键的形成是有机化学领域 ...

  • 南科大李闯创团队JACS:完成紫杉醇的最短全合成

    近日,南科大李闯创教授团队在JACS上报道了抗癌明星分子紫杉醇的全合成,整条路线仅需要分离19个中间体(21步),高效简洁地完成了顶级难度的复杂天然产物紫杉醇的不对称全合成,相关研究成果发表在JACS ...

  • AI化学家会梦见电子云吗?

    对于很多化学家(当然也包括其他实验科学)来说,做实验是件让人又爱又恨的事情. 此图虽是生物实验室主题,但"科研砖工"的日常大抵是相通的(来源:微信表情包"生物实验室的日常 ...

  • 【有机】Nature Chemistry:光催化模拟木脂素生物合成中的“非经典”氧化反应

    五味子科药用植物遍布东欧和亚洲各地,众多研究表明,来源于其中的天然产物拥有广泛的生物活性和药用潜力.值得注意的是,其中很多重要的生物活性都与分子中高度氧化的木脂素结构二苯并环辛二烯(DBCOD)相关. ...

  • 南方科技大学李闯创团队Chem. Soc. Rev.:反式5-5并环的合成进展

    导读: 近日,南方科技大学李闯创课题组对具有反式5-5并环的天然产物全合成进行了系统总结与展望,相关文章发表在国际顶级综述期刊<Chemical Society Reviews>(DOI: ...

  • 访谈|智化科技创始人夏宁:提升分子合成效率是「AI+药化」的一大核心价值

    "分子并非标准化产品,但机器学习可以训练出分子合成的自动化工具." 作者:罗宾 编辑:tuya 出品:财经涂鸦(ID:caijingtuya) 在很多场景中,从结果看AI还只起到了 ...

  • Taxol(紫杉醇)合成之旅

    引言 Taxol,中文名:紫杉醇,分子式为C47H51NO14,分子量为853.91,其化学结构式如下图所示: Taxol是一种二萜生物碱类化合物,具有显著的抗癌活性,在临床上广泛应用于乳腺癌.卵巢癌 ...

  • 逆合成AI—化学制药工艺学6

    2016年3月,AlphaGo战胜了世界冠军韩国职业棋手李世石九段.至此,人工智能开始成为计算机领域最热门的研究方向,其应用领域涉及机械.材料.生物.化工等各个领域.下面我们就来介绍一下,基于人工智能 ...