CHEM SCI｜在不对称催化中，用AI优化溶剂的选择

2024-06-18 02:08:35

今天给大家介绍的是Chemical Science上有关溶剂优化的文章 "Machine learning and molecular descriptors enable rational solvent selection in asymmetric catalysis"。

为了在工艺开发中合理地选择溶剂，作者提出物理-机器学习方法，用乙酰丙酮二羰基铑配体催化手性α-β不饱γ-内酰胺加氢反应的实验数据，来训练高斯过程替代模型，其中包含459种溶剂，12个分子描述符，2个反应特异性描述符和基于筛选电荷密度的描述符，来优化转化率和非对映体。

当用25种溶剂的初始数据作为训练集时，该模型就可以识别出较好的溶剂。在确定最佳溶剂后，使用黑箱贝叶斯优化法确定溶剂混合物的组成和最佳反应温度。并演示了一种新的遗传编程方法，为特定的物理系统选择合适的机器学习模型，允许将整个开发工作流的过程过渡到未来机器人实验室。

1.研究背景

以往化学家都是依靠直觉和过去的经验来控制反应条件和选择溶剂，最多利用实验设计（DoE）方法加快反应进程，基于贝叶斯优化的DoE也是最近才出现。但这种方法适用于连续变量（如温度，时间等），不适用于离散变量（如催化剂、底物或溶剂的选择），然而这些变量在大多数反应优化研究中起着至关重要的作用。

最近，有研究在自优化框架中考虑了离散变量，但没有与物理实验结合起来。解决这个问题的一个有效方法是使用分子描述符，引入物理意义上的连续变量，将离散变量连接起来。

在本研究中，溶剂描述符被纳入反应自优化范式中，以创建预测性替代模型，来优化反应溶剂的选择。

使用分子描述符对溶剂图进行参数化，从而扩展了传统的阶乘DoE方法。在本研究中，作者采用主成分分析（PCA）法，用于从机器学习代理模型的大维描述符空间中提取特征或有意义的输入变量。

化学知识向机器学习领域和过程领域的流动和转换如图1所示。从459个候选溶剂库开始，然后从属性数据库中获取物理知识，并通过分子模拟得到17个分子描述符。物理知识向机器学习领域的转换是通过降维实现的，降维为高斯过程机器学习模型提供了特征，然后用于实验室和分析。

图1：化学知识向机器学习领域和过程领域的工作流程和转换

在研究中，作者探索了屏蔽电荷密度剖面。这些信息丰富的“σ- profile”，即筛选的直方图分子表面的电荷密度，被转化为每个溶剂的数值描述符，每个定义不同段，见图2。

图2：四种溶剂的筛选电荷密度分布

2.材料和方法

2.1 实验

在氩气中进行，使用10ml玻璃反应瓶，将手套箱置于不锈钢筛选高压灭菌器中。称量底物、催化剂前体和配体并将其装入反应器中，随后加入溶剂和磁搅拌器。高压灭菌器密封并用氢气吹扫三次，然后缓慢加压至10并加热至70℃。搅拌速度为1000，材料装载量为0.1M ，1%乙酰丙酮二羰基铑和1.2%的配体。所有实验的反应时间均为17小时，实验重复了两三次。

2.2 实验分子描述符

对于库中的每种溶剂，作者创建了一组17个分子描述符。这些数据的来源取自文献，或在COSMOtherm中计算得出。

2.3 机器学习算法

采用汤普森采样高效多目标优化（TS-EMO）算法，该算法的一个主要优点是它能够独立地处理多个目标，当根据初始实验数据进行训练时，TS-EMO为每个目标建立高斯过程（GP）替代模型。TS-EMO使用汤普森抽样从该模型中取样，以求得近似帕累托最优解集，然后识别统计替代模型中最大化超体积的点。

表1概述了本研究中考虑的六种模型。模型1-3用于DoE，将模型4-6与模型3进行比较，以研究在使用较少化学信息时模型的稳健性。

表1：使用58个溶剂数据比较不同的GP替代模型的转化率。Ti=1-4=主成分，从17个描述符依次减少。q2是指交叉验证的相关系数

3.结果

3.1 σ- profile作为溶剂分子描述符（模型1和2）

初始筛选不同类别的溶剂，由经验丰富的合成化学家根据先前知识选择，见图3。结果显示，转换的范围很广，该组中只有一种溶剂的转化率高于90%，并且没有任何溶剂位于帕累托前沿的近似值上（在一个目标中无法改善，在另一个目标中就不会恶化）。当使用模型1输入描述符对该数据进行训练时，该算法建议的下一种溶剂是二丁胺、辛酸甲酯、桉叶醇和乙酸乙酯。从实验中得出前三种溶剂的反应转化率超过90%。

图3：不同类别溶剂的初步筛选结果

3.2 基于PCA的溶剂分子描述符（模型3-6）

采用主成分分析（PCA）方法进行降维，并对结果进行分析，四个主成分用作TS-EMO（模型4）的输入。表2中模型3的括号中所示的基本描述符表明了由相关分析确定的每个主成分大致描述的属性。

表2：使用不同的模型替代模型超参数。GP1用于转换，GP2用于参数化协方差矩阵的长度尺度（自动相关性确定）。大多数有影响的变量以粗体显示。超参数将在每个模型内的变量之间进行比较，而不是在不同的模型之间进行比较

3.3 使用描述符和分类自动化机器学习管道

最近，一些自动机器学习策略已经被开发出来。基于树的管道优化工具（TPOT），一种基于遗传编程的方法。典型的机器学习算法可以用管道构建，如图4所示。在每个步骤中，都有各种可能的选择，例如如何预处理数据、选择什么机器学习模型以及使用什么超参数，对给定的问题调整管道优化领域，结合硅建模来放大数据，导航描述符空间，并优化溶剂。TPOT选择一些新的溶剂，并对其进行实验测试，以提高准确度。通过重新训练GP代理模型来重新编辑数据。重复此循环，直到找到最佳溶剂。

图4：机器学习流水线工作流程示意图

4.讨论

综上所述，作者开发了一种新的基于混合机械学习选择溶剂的方法。这将有物理意义的溶剂描述符与基于高斯过程的算法相结合，从而实现了快速识别不对称氢化反应中最佳溶剂，在转化率和非对映体过量方面优于人类直觉选择的溶剂。筛分电荷密度是一个信息丰富的溶剂描述符，用于转化，尤其是非对映体过量。与仅基于筛选电荷密度的模型相比，使用17个物理化学描述符的降维集可以产生更好的转换模型（交叉验证相关系数分别为0.84和0.76）。超过15种转化率>90%的溶剂受算法启发，而人类专家建议的训练集中只有一种这样的溶剂。使用黑盒优化，设计出一套最佳操作条件，并成功探索了使用混合溶剂以达到纯溶剂无法达到的实验空间范围。此外，自动化的机器学习工作流成功地用于解决溶剂选择问题。然而，这种方法需要大量数据，并辅以统计预测替代模型。

参考资料

DOI: 10.1039/C9SC01844A(Edge Article)Chem. Sci., 2019, 10, 6697-6706

这篇10分顶刊把病理图像玩出新高度！

题目:非裔美国人前列腺切除术后前列腺基质复发的计算机衍生基质特征的图像signature 一. 研究背景数据显示,在前列腺癌根治术后,有30%-40%的前列腺癌患者出现复发.尽管有证据表明在非裔美国 ...
快手因果推断与实验设计

编辑整理:赵一方百度出品平台:DataFunTalk 导读:理解和识别用户行为指标的相互关系是实验分析的目标.在社区氛围下,影响用户行为的因素更为复杂,关系识别更为困难,如何使用各种学科的方法,对 ...
基于DOE优化烧烤口味

对于烧烤,没有那么多变量需要考虑,因此我们将使用协助来创建一个可以优化我们烧烤过程的建模设计.选择协助> DOE> 计划优化试验,然后单击"创建建模设计"按钮. Min ...
大数据、统计学与机器学习是怎样的关系

这三个主题,都是当下热门的概念,梳理清楚其关系,有助于在后续的学习中,有的放矢.如果只看结论,可以直接到最后一个章节. |0x00 统计分析与实证研究统计学是通过搜索.整理.分析.描述数据等手段,以 ...
【生化】Chem. Sci.：通过近红外荧光和光声成像观察NAFLD小鼠肝脏中的过氧化物酶体黏度

非酒精性脂肪性肝病(NAFLD)是由除酒精和其他明确的损肝因素外导致的,以肝细胞脂质蓄积为主要特征的疾病,会逐渐发展为肝功能衰竭,因此对其进行早期诊断以提高治疗效率显得至关重要.研究表明,NAFLD的 ...
【有机】Angew. Chem. Int. Ed.：镍催化的不对称扩环反应合成硅中心手性苯并噻咯

含硅的π-共轭体系在发光材料及电子传输等方面具有重要性能,近年来已经成为相关领域的研究热点.与碳骨架的类似体系相比,硅取代的π共轭体系通常可以提高体系的堆积能力.结晶度和电荷载流子的迁移率.在此基础上 ...
【有机】Chem. Sci.：铑催化硝基芳烃的邻位炔基化反应

硝基苯作为重要的合成砌块,已被广泛用于制备染料.有机材料.溶剂等.因此,发展硝基苯官能化的方法具有很重要的意义.经典的官能化方法是先将硝基苯还原为苯胺,然后形成重氮盐在同位发生官能化得到芳基卤化物(S ...
【大家】丁奎岭——第二届全国创新争先奖获得者——专注不对称催化、手性配体研究

Key Word 1. 组合不对称催化 2. 新型手性配体的设计.合成及应用 3. 手性催化剂负载化新方法简介 2020年5月30日,丁奎岭荣获第二届全国创新争先奖状. "全国创新争先奖& ...
【有机】Chem. Sci.：经由3,4-吡啶炔中间体的吡啶区域选择性双官能化

吡啶是存在于多种生物活性分子中的重要杂环.现今研究人员已开发出多种用于N-杂环功能化的合成方法,特别是吡啶的区域选择性金属化已被广泛使用.同样,高度不饱和的中间体,例如吡啶炔(芳烃的类似物)也为相邻的 ...
科研 | J AGR FOOD CHEM：葡萄果实发育成熟过程中根系限制对酚类代谢产物影响的转录学分析（国人佳作）

编译:寒江雪,编辑:景行.江舜尧. 原创微文,欢迎转发转载. 导读本研究从转录组和代谢组水平研究根限制(RR)对葡萄不同发育阶段主要酚类代谢产物及相关基因的表达水平.超高效液相色谱-高分辨质谱鉴定出 ...
【有机】Chem. Commun.：手性膦催化串联环化反应构建手性吡唑并吡喃骨架

吡唑并吡喃骨架是一类重要的化合物,由于其具有重要的生物活性,受到了化学家们的广泛关注.因此,发展高效便捷的方法学以合成该类结构,尤其是含手性中心的吡唑并吡喃化合物,具有重要意义 (图1) ...
40个不对称催化公斤级放大实例

40个不对称催化公斤级放大实例声明:本文苏博授权转载,谨致谢意.
综述 | Sci Transl Med：肺炎中的微生物群：从保护到易感性

编译:微科盟如风,编辑:微科盟木木夕.江舜尧. 微科盟原创微文,欢迎转发转载. 导读上呼吸道和肠道的粘膜表面定植有它们自己的微生物群.正常的上呼吸道和肠道菌群可通过阻止潜在病原体的定植并调节免疫反应 ...

CHEM SCI｜在不对称催化中，用AI优化溶剂的选择

相关推荐