“AlphaGo”进化版来了!新靶向药在路上!阿尔茨海默症、帕金森症攻克在即?
2017年,AlphaGo击败“最强大脑”柯洁,从此退隐江湖。
2018年,AlphaGo的“姊妹”系统AlphaFold亮相第13届“蛋白质结构预测奥运会”CASP,击败97名参赛者,一举夺魁。
两年后的11月30日,AlphaFold在CASP中再次卫冕,因AlphaGo名扬四海的DeepMind公司宣布,AlphaFold在解决生物学界50年难题方面又获得了新的突破。“DeepMind遥遥领先。”CASP主席John Moult说。
▲AlphaFold在“蛋白质结构预测奥运会”CASP中两次夺冠
本届CASP中,AlphaFold系统对所有蛋白靶点3D结构预测的中位GDT评分高达92.4分。而达到90分以上就可以认为是与实验所确定的结构相一致。即便是针对最难解析的蛋白靶点,AlphaFold的中位GDT评分也达到了87.0分。
▲AlphaFold根据氨基酸序列预测的蛋白结构与实验手段解析的结果几乎完全重合(绿色,实验结果;蓝色,计算预测结果;图片来源:DeepMind Blog)
那么蛋白质结构到底有什么用?众所周知,蛋白质是维持生命所必需的分子,带有蛋白质编码的DNA片段则称为基因,而蛋白质的功能一般取决于其独特的3D结构。
例如,构成人体免疫系统的抗体蛋白是“Y 形”的,形状类似于独特的钩。通过锁定病毒和细菌,抗体蛋白能够检测和标记这些引发疾病的微生物并最终消灭它们。其他类型的蛋白质包括CRISPR和Cas9,它们会像剪刀一样剪切并粘贴DNA。
预测蛋白质的结构可以让我们了解它在体内的作用,帮助诊断和治疗由蛋白质堆叠错误引起的疾病,如阿尔茨海默症、帕金森症、亨丁顿舞蹈症和囊肿性纤维化等。
但是从纯粹的基因序列中找出蛋白质结构并不容易,其挑战在于DNA仅包含有关蛋白质构建块序列的信息——氨基酸残基,它形成了长链,预测这些链如何折叠成蛋白质的复杂3D结构——即“蛋白折叠问题”,是科学家们几十年来都未曾解决的难题。
▲预测蛋白质3D结构模型示意
有学者估计,一个典型的蛋白质理论上可以形成10³ºº个可能构象。用什么样的计算方法,才能找出那个10³ºº分之一的正确构象呢?
北宋科学家沈括曾在《梦溪笔谈》中提到,19路围棋,最多可以放361个子,每一步棋约有10的172次方种下法。而AlphaFold自诞生以来,仅仅在4年间就将运算量级提升远远超过了兄弟“AlphaGo”,进化速度之强令人惊叹。
在过去的50年中,科学家们已经能够使用冷冻电子显微镜、核磁共振等技术来确定实验室中的蛋白质形状。但是上述方法都需要大量反复的实验,这将花费数年的时间和大量的金钱。所以,生物学家将目光转向AI,希望可以解决这个问题。
AlphaFold则借助两种不同的方法来预测蛋白质结构的物理性质,以此达到高度的准确性。
第一种方法建立在常用的结构生物学中技术上,用新的蛋白质片段反复替换蛋白质结构的片段,不断提高所提出的蛋白质结构的得分;第二种方法则通过梯度下降优化得分, 该技术应用于整个蛋白质链,而不是在组装之前必须单独折叠的碎片,从而降低了预测过程的复杂性。
药物靶点是指药物在体内的作用结合位点,识别新的有效的药物靶点是新药开发的重中之重。然而,发现和验证大量分子靶标所涉及的工作极大增加了药物开发的负担。
以热门的肿瘤新药研发为例,人体所携带的癌症相关基因近500个,会产生将近1000万个基因的变异,涉及10多条信号通路和60多个药物靶点,而且这个数字还将不断扩大。
AI则可以很好地解决这个问题,通过实时抓取和动态学习更新,尽量穷尽肿瘤靶点的知识库,提高这一环节的效率。帮助生物学家更早、更快地找到更佳的药物作用靶点,减少研发时间和所需临床试验的数量。
曾在瑞士诺华制药工作过的美国史赛克医疗器械全国销售经理金宏山对《财健道》说,蛋白质结构预测工作,已经开拓了“已知药物靶点正向筛选药物”和“已知药物反向筛选靶点”两个领域。AlphaFold对蛋白质结构的预测则开启AI药物发现的第三大领域,即“发现新靶点,解析新靶点”。
AlphaFold不见得完全取代冷冻电子显微镜等其它实验手段,但是DeepMind的研究人员表示,这一令人兴奋的结果表明,生物学家们可以将计算结构预测作为科学研究的核心工具之一。这一手段对于特定类型的蛋白来说可能尤为便利,例如膜蛋白一直非常难于结晶,因此很难用实验手段获得它们的结构。
而对于从事计算和机器学习研究的DeepMind团队来说,AlphaFold的表现证明了AI在辅助基础科学发现方面的惊人潜力。该团队在公司发布的博文中表示,他们相信,AI将成为人类拓展科学知识前沿最有力的工具之一!
(作者系《财经》实习研究员)