AI 夺走了黄峥、张一鸣最初的「生命科学梦」?
用AI,探索生命科学的星辰大海。
继黄峥、张一鸣之后,王小川也“下海”生命科学了。
在被腾讯正式收编之后,一向佛系的王小川,再次自主择业,成立健康咨询公司。
互联网早已进入下半场,红利消逝、用户增长疲软后,巨头们不断地给自己、给公司谋下一条出路。而大佬们都有一种惊人的默契,将目光放在两大领域:
一是元宇宙,另一个便是生命科学。
生命科学领域,前有李彦宏创立百图生科,后有张一鸣世界三地招兵买马,招揽医学生物人才。如果再往前看,马化腾、傅盛、王小川等一众互联网一线创业者都是生物学思维的痴迷者和坚定实践者。
傅盛说,生物学是一门能打通很多跨界知识的学科。相比物理学等自然科学,生物学更深刻地揭示了世界的底层规律。
王小川甚至说,正是生物学思维让搜狗活到今天。他说,从2020年开始,就开始以生物学的视角去看待公司和组织,看待创始人对于这个组织的决定性意义,看待组织自身的延续。
生命科学,是一扇扇未打开的生命本源大门,而去年12月一项颠覆生命科学的成果——Google的AlphaFold2横空出世,用一种近乎“匪夷所思”的蛋白质结构预测精度,大大加速人们探索生命科学的进程。
黄峥、张一鸣们最初的生命科学梦,正在被人工智能重构。
今年的7月,AlphaFold2宣布开源。
开源的消息传出后,有人声称,“都开源了、免费了,还怎么申报经费。”随后,AlphaFold2的所有者——DeepMind再放大招,发布AlphaFold数据集,再次引爆科研圈。
目前,AlphaFold数据集里大约有36.5万个蛋白质结构预测。到今年年底,这个数量将会增加到1.3亿个。而且,这个预测结果不是张口就来,可信度甩了人类好大一截。
不少人感受到了被AI支配的恐惧,惊叹道:“机器再一次战胜了人类。”
DeepMind联合创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis),对自家的“王者级成果”也是不吝赞美之词:“这是迄今为止AI在推动科学进步方面做出的最大贡献。我觉得这么说一点儿也不夸张。”
事实真是如此吗?
五位结构生物学家怎么看?
AlphaFold2的成功,离不开蛋白质组学(Proteomics)的研究。
在90年代,人类基因组计划开始成形时,科学家意识到光掌握基因的碱基排列是不够的,还必须了解基因的产物蛋白质。
由此,澳大利亚遗传学家马克·威尔金斯提出了破译人类蛋白质组的想法。此后,众多学者都投入了这一研究。
如何评价这次AlphaFold2的研究成果——一口气预测98.5%的人类蛋白质结构、并且宣布开源?
密苏里大学教授,AAAS、AIMBE Fellow许东教授告诉雷锋网,DeepMind在论文中提到的高置信度蛋白质结构预测,基本可以达到准实验精度,而这极大地扩展了它的应用范围。在以往的研究中,受限于预测的精度和可信度,诸如小分子药物设计等方面的研究受到了很大的阻碍,而现在能够在高置信度蛋白质结构上做分子对接预测。
“DeepMind 向外界公开源代码和数据库,是一个重大利好,尤其是生物制药等工业界。”作为第一个用深度学习来进行氨基酸距离预测的专家,芝加哥丰田计算技术研究所教授,斯隆奖得主许锦波教授说到。
许锦波教授认为,目前国内的研究成果可能略显滞后,但随着人工智能算法的提升,加上更多高质量数据库的开源,相信在未来的2-3年内相关研究会有一个质的飞跃,或者达到与DeepMind比肩的水平。
西湖大学教授、蛋白质组大数据实验室负责人郭天南教授表示,AlphaFold2的这项成果意味AI已进入生命科学的微观分子领域,并且向生命科学研究人员开放,其意义类似于AlphaGo进入人们生活(围棋领域),它的广泛使用可能对结构生物学产生重大影响。
也有人工智能与蛋白质结构预测专家也补充到,在方法创新上,AlphaFold提出了一套全新的模型架构与训练策略;在应用价值上,AlphaFold蛋白质结构数据库,将为更好地理解蛋白质在生物体内的功能与作用提供见解和参考。
对于AlphaFold2的行业影响,该专家认为,“它可以为蛋白质单链结构、蛋白质复合体以及蛋白质小分子等结构预测任务指明思路,对基于结构的药物设计等领域可能会有较大的推动作用。”
尽管AlphaFold2这次的成果得到了众多专家的力捧,但是正如上文所说,没有完美的科学成果,只有不断完美的过程。
AlphaFold2 目前也存在一定的局限性,比如很多蛋白和区间并不能达到高置信度,AlphaFold2评估的一些高置信度,本质上更像是一种高可信性的假设,它与实验的第一手的观察仍有差距。
许东教授分析道,其主要原因在于蛋白质结构具有的很强的多变性,个别情况下,几个氨基酸可能就会完全改变其结构和功能,而人工智能系统基于统一性,很难发现这种变化和差异。
换言之,预测结构与实验室结构仍不能完全划等号。不过许东教授相信,随着算法的提升和AI的数据边际效应,AlphaFold2仍有很大的提升空间。
许东教授表示,人工智能预测在本质上是基于大数据的统计,而非物理学过程。蛋白质折叠结构中的一些物理属性,比如不同的酸碱度、温度造成的结构变化,AI是无法预测和分析的,这意味它不能完全取代传统以物理为基础的模拟、预测方法。
值得一提的是,国内近年来在AI预测蛋白质结构方面的研究也取得了长足的进步。
比如中科院卜东波教授主持的FALCON预测系统,其预测精度有了大幅度提升,虽然仍未达到AlphaFold2 的预测水平,但整体趋势是快速向前发展的,这是人工智能技术日渐成熟的一种必然结果。
密歇根大学教授,I-TASSER 算法发明人张阳教授参加了 DeepMind 两篇研究论文的评审工作。
他在与雷锋网的访谈中提到,所有审稿人都对第一篇 AlphaFold2关于算法的文章评价很高,而对本次关于人类基因组的应用的论文有所保留,具体包括以下几个方面:
第一是论文缺乏新意。自从蛋白质结构预测问题被提出后,特别是人体基因组计划后,如何用计算机算法对整体基因组进行蛋白质结构预测,便成为了科学家努力的目标。在过去二十年,关于基因组蛋白质结构预测的论文发表已发表很多,这远不是第一篇。
第二,从方法学来讲,蛋白质预测关键在于算法开发,应用层面是很直接的事情,只要有足够的计算机资源就可以实现。
第三,这篇文章注重强调如何利用预测结构对蛋白质功能进行分析,特别展示了三个蛋白例子。虽然这些努力很可贵,但是没有一个例子是经过双盲实验验证,而这在蛋白质功能预测方面是非常必要的。
张阳教授认为,这篇工作之所以备受关注,是因为 AlpahFold2算法(即第一篇论文)达到了目前为止计算机能够预测的最高精度。从CASP14的结果来看,AlphaFold2有2/3的目标蛋白达到了实验精度,在难度较高的非同源序列预测上,有1/3的目标蛋白达到这个精度,而人体基因库中尚未解开的蛋白大部分为非同源蛋白。
另外一方面,因为历史的原因,CASP14 的测评是基于单结构域的小蛋白质结构。对多结构域的大蛋白质或者多链蛋白质复合体结构的预测,AlphaFold2 的模拟精度还是一个未知数。
许锦波教授表示,作为最高等的生物,人类蛋白质组的预测难度比较高,AlphaFold 虽然预测人类蛋白的覆盖率达到了 98.5%,但其在氨基酸层面的结构预测上仍有一定的提升空间。
与其他几位学者一样,许锦波教授也认为,蛋白质高精度预测不能完全依赖于人工智能技术,它应作为生物实验方法的最佳补充技术,二者的关系是相辅相成的。数十年来,实验方法尚未解开的人类蛋白结构,仍需要基于大数据和算力的AI提供更多思路和可能,同时,加速现有生物结构研究的AI, 其预测结果仍需要得到实验的验证。
郭天南教授是国内蛋白质组学领域知名专家,对于AlphaFold2的局限,他的观点与张阳教授有些类似。
他认为,Alphafold2 虽然发现了很多新的蛋白质结构,但是这些结构是否完全正确,尚需要传统生物实验的验证。如某一个氨基酸的翻译后修饰可能完全改变蛋白质的结构和功能,而目前,AlphaFold2是否具有氨基酸水平和翻译后修饰的准确度,尚有待进一步研究和验证。
上述不具名的专家说到,目前,AlphaFold 对于模型输入侧的同源序列信息仍然存在一定的依赖,可能会出现预测不够精确的问题;同时,对于三维结构更多依赖于异构接触(heterotypic contacts)而非链内接触或同构接触的蛋白质,也可能出现精度问题,这也是作者在论文中所提到的未来改进方向之一。
在 AlphaFold(以及David Baker组的RoseTTAFold)发布之前,国内已有一些将端到端学习引入到蛋白质结构预测中的初步尝试(包括tFold),在预测精度方面,基本可以达到与CASP14中排名第二的Baker组相仿的水平,但与AlphaFold仍存在一定差距。
不过,在AlphaFold论文及代码公开后,相信国内这方面的研究将在短期内迎来较大的提升幅度。
AlphaFold成功的两个关键之处
从去年12月亮相以来,AlphaFold已经成为圈内圈外,生物学、非生物学人士的“现象级话题”。
尽管很多人发出惊呼之声,但是,如果高度概括一下,AlphaFold的创新之处,会提炼出哪几个关键词?
根据此前DeepMind在CASP14会议上公布的技术方案,应该有两点。
首先,是注意力机制的引入。
注意力机制的引入,解决了如何更好地从多序列对齐(multiple sequence alignment)数据中提取特征以指导结构预测的问题。
在此之前,较为主流的方案是从多序列对齐数据中提取共进化信息,但DeepMind通过对比发现这种人工设计的特征提取会丢失部分关键信息,而通过引入注意力机制可以较好地解决这一问题。
同时,注意力机制也应用在了迭代更新序列-残基和残基-残基相互作用的过程中,从而以迭代的方式得到更为准确的距离预测与三维结构。
许东教授表示,注意力机制确实在蛋白结构预测方面上了一个台阶。
“AlphaFold可以把氨基酸之间的距离整合成三维结构。因为他们的算力很多,两年前他们虽然方法和别人几乎是一样的,预测的距离却准的多,在CASP里做得很好。”
但是,许教授认为,AlphaFold真正的创新之处在于利用了注意力机制,可以把氨基酸之间的距离预测问题更为全局、整体的解决,同时对每一对距离的预测可靠性有更好的评价,从而看出什么预测距离更靠谱,让其在蛋白三维结构重建中发挥更大作用。
这么做,就真正把蛋白已知结构进行最大化的应用。
许东教授坦言,此前,自己的团队也思考过,但是那时候采用的是“土一点”的统计方法。
“AlphaFold确实是非常大的创新,这种创新对研究其他问题也有帮助。比如,我们现在就想用类似的思想去做单细胞数据建模的一些研究。
其次,端到端学习的引入。
端到端学习的引入,使得从输入氨基酸序列到输出蛋白质三维结构的过程,可以完全在深度学习的框架内实现,从而使得优化过程可以得到更为直接的误差信号。
而之前的方法往往基于深度学习+传统结构建模工具(例如Rosetta、I-TASSER等)的组合,这样结构建模的误差信号不能直接用于对深度学习模型本身进行更新。
AlphaFold的商业前景如何?
虽然,AI不会去掉传统的蛋白质结构研究方法,传统实验室技术仍然具备生命力。但是有一点值得肯定,AlphaFold的爆炸性成果,会对其他入局蛋白质结构预测的厂商产生非常大的冲击——犹如一条“鲶鱼”一样,搅动整个行业的现有技术和商业格局。
去年,DeepMind联合创始人及CEO德米斯·哈萨比斯(Demis Hassabis)第一时间向外界表示:“DeepMind背后的终极愿景一直是构建通用人工智能,利用通用人工智能来极大地加速科学发现的步伐,帮助我们更好地了解周围世界。”
但值得注意的是,在AI领域,研究成果与商业化之间仍然存在一条鸿沟,即便是有领先算法的DeepMind也不例外。
2019年,据外媒报道,谷歌母公司Alphabet旗下的人工智能子公司DeepMind2018年的营收几乎翻了一倍,但净亏损仍高达5.72亿美元。
从这项成果来看,AlphaFold本质还是基于深度学习技术,需要算力的支持(使用了大约128个 TPU v3 ——大致相当于100-200个 GPU ),这些都是需要真金白银的支持。
但是,行业专业人士向雷锋网《医健AI掘金志》表示,从计算资源需求上来看,128个TPU v3基本还在可接受的范围内,同时学术界和工业界后续也势必会从算法和工程实现的角度,对计算效率继续进行优化,来降低实际计算开销。
因此,尽管拥有着非常前沿的AI技术,如何将所耗费的成本转化为实实在在的商业收益,也是DeepMind需要考虑的现实问题。
AlphaFold的出现,似乎为DeepMind在医药领域的生意带来了新的突破口。
印第安纳大学医学院主管数据科学的副院长黄昆教授认为,对于药厂来说,100-200个GPU本身投资并不算太大,主要是怎么样建立或者维持一个这方面的团队。这就也诞生了一些新的外包机会。
“几年前,我就看到有初创公司用机器学习来做结构筛药,不知道这个进展是会引过来更多这方面的创业还是反过来让DeepMind独霸一方。”
此前,许东教授也考虑过这个问题:这项技术的应用前景,很多程度上取决于DeepMind的商业模式,是不是能给学术界开放使用。从商业的角度来看,很多制药公司会为此付费。
此外,AlphaFold并不是一个开源软件,不是所有人都能拿到AlphaFold最好的版本。DeepMind也许会部分开放,但不一定开放最好的版本。
“如果是需要收费,很多研究组不见得有钱去做这个事情。像BLAST那样进行序列比对,我觉得还有一点距离。”
但是,7月AlphaFold2的这次开源,也算是对许东教授疑问的一次正式回应。
晶泰科技的CEO马健也认为,算力现在已经不是问题。100-200个GPU是训练的使用量,真正使用中的算力可能只是这个数字的零头。而计算将节省大量的时间和实验成本。
“计算机辅助药物设计与发现以及AI的应用,经过了漫长的发展和近期的飞速发展,也已经有了质的飞跃,比如晶泰科技的智能药物研发平台,在大部分蛋白上都可以准确预测活性,选择性,耐药性等药物关键性质,可以在极少量的实验下获得理想的药物候选。”
正如马健所言,这项技术将开启一个药物研发和疾病研究的新时代,可以从原子分子层面上帮助理解疾病的作用机理。
同时,与疾病相关的蛋白结构越来越多地被计算解析出来,会提供大量的新靶点,如同给药物发现打开了一道源头的闸门,为药企开发first-in-class药物创造更多新机会。
生命科学,站在最好的时代路口
其实,任何一项学术成果的爆发,都有前人不断耕耘的脚步。
去年Deepmind消息出来后,做了多年结构生物学研究的许东教授就发了一条朋友圈。
他写道,我在这个领域做了十几年的工作,多次参加过CASP大赛。现在终于看到这个问题被靠谱地解决了,是一件科学领域的幸事,可喜可贺!虽然DeepMind是集大成者,但这个问题的解决是无数人几十年的结晶。
许东教授向雷锋网说到,自己在橡树岭国家实验室和徐鹰教授一起,做了一些蛋白结构预测的工作,当时受到不少关注,因此两人获得了2001年美国“最杰出研究与开发100 人奖。
此外,周耀旗教授、李明教授、许锦波教授、张阳教授、卜东波教授和自己系里的程建林教授等在这个领域里都做了非常好的工作。
特别是许锦波教授课题组是真正第一个用深度学习来进行氨基酸距离预测的人,对这个领域起了很大的作用;密歇根大学张阳教授实验室的服务器很久在CASP自动预测大类里排名第一,得到了广泛使用。
“所以,大家可能看到是最闪亮的那颗星,但是背后有很多人默默为之奋斗。今天AlphaFold的成就绝对是太多人积淀的结果。”
同样集大成的,还有DeepMind本身的团队,他们站在了这个时代最聪明的人的肩膀上。
行业专业人士向雷锋网表示,AlphaFold的研究团队非常豪华,19位共同一作者里面有很多人是在语音、计算机视觉、自然语言处理、机器学习、医疗影像、分子动力学、高能物理、量子化学等领域的知名学者。
值得注意的是,排在榜单前几名的就有上文提到的密歇根大学张阳教授实验室。
有知乎网友表示,“能战胜AlphFold的只能是其他巨头公司,高校已经没有战胜的条件了。”
行业专业人士坦言,和工程型团队相比,学术型团队在计算资源上已经不再是短板,而学术团队和工程团队的一个明显差别在于,学生很难做到工程人员能做的事情,公司在这一点上可以做到极致。
“真正要把一件事情做好,需要每个component(组成部分)都做到极致。因此,从这个角度来看,很细致才能做得很好,DeepMind是一个很优秀的集成者。”
每到AI战胜人类时,总有这种相似的论调:XX职业要被AI取代了。因此,当AlphaFold一出时,就有人预言到,结构生物学家都要失业。
颜宁在微博里也就明确表示,如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学今时不同往日了。
AlphaFold注定会成为这个时代中浓墨重彩的一笔。颜宁在微博中的一段话,特别适合概括这次AlphaFold的时代意义。
我在2015年主持一个seminar的时候曾经评论过:structural biology的本质是biology,是理解生命、是做出生物学发现。但是在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把“获得结构”本身作为了目标,让外行误以为结构生物学就是解结构。
但是我从进入这个领域之初,就被教育的明明白白:结构本身只是手段,它们是为了回答问题、做出发现。
人类对未知世界的渴求,对真相的追求,是AlphaFold在这个AI时代最好的注脚。
因此,当看到马化腾、李彦宏、王小川等人对生命科学的追求,花大价钱组建团队,我们应该对这件事情的本身报以善良的敬意。因为,在学术研究的过程中,有着太多黎明前的黑暗,不是所有人都可以挺得过去。
每一个为了探寻人类生命奥秘而努力的个体,都是这个时代,最值得敬佩的人。