人工智能+药物发现,吸引了制药公司的目光
人工智能(artificial intelligence,AI)辅助药物开发的典型例子是武田制药与Numerate公司的合作,武田制药将利用Numerate公司的AI组件来寻找肿瘤、胃肠疾病和中枢神经系统疾病的小分子药物。罗氏制药子公司基因泰克与GNS Healthcare公司也达成了一项协议,基因泰克将使用GNS Healthcare的AI平台,以更好地了解何种因素影响了肿瘤药物的疗效。2017年5月,Exscientia公司与赛诺菲公司签订了一项协议,其中包含了高达2.8亿美元的分期付款。Exscientia将为赛诺菲提供化合物设计服务。这一趋势表明,制药行业对AI的长期怀疑态度正转为真正的兴趣,这可能是因为AI有望解决该行业的主要痛点:临床失败率较高。
制药行业愿意考虑AI的做法,反映了这样一种现实,即药物发现是费力、耗时的,而且不是特别有成效。在临床成功率方面,持续20年的下降趋势最近才有所改善。尽管如此,目前只有十分之一的药物进入了1期临床试验。BenevolentAI子公司BenevolentBio的CEO Jackie Hunter说,“一半的失败是由于缺乏疗效,这说明,我们没有选好正确的靶标。”
那些一直在观望AI的公司现在也加入了进来。最著名的药物发现机器学习模型也许是IBM的沃森。IBM于2016年12月与辉瑞公司签署了一项协议,以帮助辉瑞公司发现肿瘤免疫药物。IBM的沃森通过对大量的文本数据进行分类,提供快速的分析,从而发现药物,并通过对大量实验室数据、临床报告和科学文献进行分类来检验假设。BenevolentAI也采用了类似的方法来挖掘研究文献和专有研究数据库。
生物医学数据的爆炸式增长推动了业界对AI的兴趣。海量数据促使科学家们寻找能够帮助他们驾驭大量信息的学习算法。
许多对AI药物研发的兴奋之情已从其他领域外溢出来。机器视觉领域已产生了复杂的多层人工神经网络,被称为深度学习算法,可以用来模拟实验数据和文本数据的生物处理过程。
耶鲁大学的Mark Gerstein说,过去,人们没有足够的数据来正确地训练深度学习算法。现在,研究人员已经能够建立大规模的数据库,并利用这些算法处理数据。
Numerate公司是越来越多的AI公司之一,这些公司利用这些海量数据,将其应用于药物发现。Numerate的CEO Guido Lanza说,“我们把AI应用到化学设计上”。Numerate将通过虚拟化合物筛选、设计和优化化合物及对吸收、分布、代谢和排泄与毒性的建模,为武田制药公司提供临床试验的候选药物。
学术实验室也在拥抱AI工具。2017年4月,Atomwise公司推出了“AI分子筛选奖励计划”,该计划将向多达100所大学的研究实验室免费提供72种潜在的治疗性化合物。Atomwise是多伦多大学的衍生公司,其在2015年与默克公司结成联盟。Atomwise将利用它的AtomNet平台来筛选1000万个分子,为每个实验室提供72种化合物,这些化合物针对的是实验室选择的特定靶标。
日本政府于2016年启动了一个以日本“K”超级计算机为中心的研究联盟,以提高数十家当地公司和机构的药物发现效率。其中包括武田制药、富士通、日本电气公司、京都大学医院及日本理化研究所Riken。
上海一家科技公司与耶鲁大学的研究人员合作进行了一项研究,该研究使用了上海这家公司的深度学习算法来识别血管生长的关键机制。这一结果可能有助于发现抑制肿瘤血管的药物。
在美国,奥巴马政府期间,制药行业和学术界联合起来,应用AI加速药物发现,这是“癌症登月计划”(Cancer Moonshot initiative)的一部分。在2016年1月启动的加速医学治疗研发联盟(Accelerating Therapeutics for Opportunities in Medicine,ATOM)中,葛兰素史克公司、劳伦斯利物莫国家实验室和美国国家癌症研究所展开了合作。其中的计算机部分包括深度学习和其他AI算法,将在头两年内进行测试。葛兰素史克公司的负责人Martha Head说,“在第三年,我们希望第一天从疾病假设开始,并在第365天推出一个候选药物。”
大学研究实验室的AI专业知识已催生了一批致力于加速药物研发的AI初创公司和合作项目。Insilico Medicine公司公布了ALS.AI,这是一个致力于肌萎缩侧索硬化症的个性化药物发现和生物标记物开发平台。这家公司专门研究生成式对抗网络,这是一种深度学习算法,使两个神经网络互相对抗;一个网络(生成网络)试图模仿真实样本,并将其改善,直到第二个网络(判别网络)无法区分真实样本和生成网络的输出结果。该公司对一个转录组学和转录反应数据库(其数据来自不同分子培养的人类细胞系)使用了该工具,以预测分子的治疗特性。Insilico Medicine公司的CEO Alex Zhavoronkov说,“我们主要是观察正常组织和受疾病影响的组织之间的基因表达变化,然后研究哪种分子可以逆转这一特征。”AI通过将算法应用于表型和定性分析,还具有加速临床前开发的潜力,这可能需要几个星期,或者数月。
但是,作为一种药物发现工具,人工智能的繁荣需要数据集来进行培训,而获取数据仍然是一个主要的挑战。大型制药公司已拥有可追溯至20世纪80年代的大型临床前数据集,这些数据可能会被共享,而且事实上,许多公司已开始进行不同的化合物共享和重利用计划。例如,葛兰素史克公司正在为ATOM提供实验数据、基因数据、药物代谢和药物动力学数据。Head说:“我们带来了一些已进入临床试验但因某些原因被终止的分子药物数据,以及我们早期发现过程中的大量数据。”尽管如此,在许多情况下,大型制药公司的数据并不是很有条理的,需要数字化才能发挥作用。
另一个挑战是成本。在机器视觉等领域,研究人员可以构建大量的数据集,因为每个数据点的成本都非常小。在制药公司内部,数据点是昂贵的,这凸显了无需大量数据算法的必要性。为此,斯坦福大学的研究人员已对一种计算机视觉算法——一次性学习(one-shot learning)进行了调整,从而产生了基于非常小的数据就能对药物特性做出预测的算法。
Numerate的首席技术官Allgood说,深度学习和其他AI算法的进步,以及硬件和软件的加速,对药物发现产生了重大影响。他说,从理论上讲,小分子药物所有化学结构(chemical space)数在1060左右。在做出决定之前,“你要把所有的数据都拿去,建立n个新模型,尽可能多地探索1060个分子结构。”
在AI的整个领域,谷歌的深度学习项目——谷歌大脑(Google Brain)引人注目,其已聘请了许多世界领先的AI研究人员。谷歌大脑一直在扩增其马萨诸塞州的生物科学团队,并将深度学习技术应用于量子化学。许多业内人士表示,如果谷歌的母公司Alphabet在不远的将来成立一家以人工智能为基础的药物研发公司,他们不会感到惊讶。
但在AI技术能主导生物制药药物发现之前,AI公司首先需要兑现他们的承诺。Zhavoronkov说,到目前为止,生物信息学并未对失败率造成影响,这使得大型制药公司对AI仍持谨慎态度。他说,“我不认为人们非常信任AI,但确实对其很感兴趣。我们真的需要一个成功的故事,才能让制药公司真正介入。”