翘首以盼8个月的 AlphaFold2 的论文与源码发布后一周,今天 DeepMind 再度公布关于 AlphaFold2 的重磅信息:用 AlphaFold2 完全预测了人、大肠杆菌、果蝇、斑马鱼等21种生物的全蛋白质组内35万个蛋白质结构!这项工作发表在了本周出版的Nature上。
https://alphafold.ebi.ac.uk/今天(2021.7.22),DeepMind与欧洲分子生物学实验室(EMBL)联合宣布:DeepMind与EMBL合作,用AlphFold2 预测了人类蛋白质组内的全部20000个蛋白质结构,并将其免费开放给学术界。
欧洲分子生物学实验室(EMBL)是欧洲生命科学研究的旗舰(flagship)实验室。
业内各方对这项工作评价甚高。
DeepMind创始人兼CEO Demis Hassabis说,“一直以来,DeepMind的目标都是将人工智能作为工具,以加速科学发现,进而增进我们对周遭世界的了解。我们用AlphaFold获得了一幅迄今最全、最准的人类蛋白质组的图像。我们相信这是目前为止人工智能对促进科学进步做出的最重要的贡献,极好地展示了人工智能将如何造福社会。”
Demis Hassabis在上周发布的推特说,more very soon!才隔一周,大新闻就来了。
通过氨基酸序列计算预测蛋白质构象——而非通过长时间的艰苦、费力而昂贵的实验手段来确定蛋白质的构象,已经帮助科学家在数月内实现了此前须耗时数年的目标。
Protein structures representing the data obtained via AlphaFold. Source image: AlphaFold. Design credit: Karen Arnott/EMBL-EBIEMBL主任Edith Heard说,“这个利用 AlphaFold 建立的数据库是开放科学(open science)良性循环的完美例证。用来训练 AlphaFold 模型的数据来自学术界建立的公共数据库,因而 AlphaFold 的预测结果向公众开放也是符合逻辑的。公开、自由地分享 AlphaFold 的计算结果,将有力地促进各处的研究者从结构中获得新的洞见和发现。我相信,AlphaFold是生命科学的一次革命,如同几十年前的基因组学。我为EMBL能协助DeepMind开源这个重要的数据资源而深感骄傲。”AlphaFold 已经被一些合作伙伴使用,如被忽视疾病药物倡议(Drugs for Neglected Diseases Initiative, DNDi),该倡议推动了对那些不成比例地影响世界上较贫困地区的疾病的研究;又如,酶创新中心(Centre for Enzyme, CEI)正利用 AlphaFold 帮助设计催化效率更高的酶,以回收造成最严重污染的一次性塑料。对于那些依赖实验来测定蛋白质结构的科学家来说,AlphaFold 的预测加速了他们的研究。例如,科罗拉多大学博尔德分校的一个研究小组正在用 AlphaFold 来研究抗生素耐药性,而加州大学旧金山分校的一个小组则使用 AlphaFold 来增进其对 SARS COV-2的认识。
https://www.wired.co.uk/article/deepmind-alphafold-protein-diseases
AlphaFold蛋白质结构数据库(the AlphaFold Protein Structure Database)的建立基于国际科学界的诸多贡献,以及 AlphaFold 的复杂算法创新和 EMBL-EBI 在共享世界生物数据方面的数十年经验。DeepMind和EMBL的欧洲生物信息研究所(EMBL-EBI)共同提供了AlphaFold 预测结果的访问服务,以便他人可将之作为一种工具来启动和加速研究,并开辟全新的科学发现途径。
EMBL副主任、EMBL-EBI主任Ewan Birney说,“这是自人类基因组(the Human Genome)以来最重要的数据库。将AlphaFold的预测结果对国际科学界开放,打开了许多条崭新的研究方向,包括以前被忽视的疾病、生物工程的新型酶等,拓展我们对世界认知的边界。”
National Human Genome Research Institute
除了人类蛋白质组,该数据库囊括多达 350000 个结构,包括20种具有重要生物学研究意义的模式生物,如大肠杆菌、果蝇、小鼠、斑马鱼、疟原虫、肺结核菌等。对这些生物的研究催生了无数的论文和科研成果。这么多蛋白质结构将使得从神经生物学到药学的广阔领域的研究者都能加速他们的科研工作。
该数据库和系统将定期更新,DeepMind与EMBL将继续投资于AlphaFold的未来改进,在未来数月,我们计划将蛋白质结构预测的覆盖范围扩大到几乎所有已知的测序蛋白质,超过1亿个结构,涵盖UniProt参考数据库的大部分。
Paul Nurse,2001诺贝尔生理学医学奖,Francis Crick研究所主任,EMBL科学顾问委员会主席“计算方法正在改变科学研究,为有益于公共利益的发现和应用开辟新的可能性。了解蛋白质的功能对于提高我们对生命的认识至关重要,并将最终导致医疗保健、粮食可持续性、新技术等等方面的改进。DeepMind 与 EMBL 共同发布了AlphaFold蛋白质结构数据库,这是生物学创新的一个重大飞跃,展示了跨学科合作对科学进步的影响。有了这些免费和公开的资源,科学界将能够利用集体知识加速发现,开创人工智能生物的新纪元。”Venki Ramakrishnan,2009诺贝尔化学奖,英国皇家科学会前主席“蛋白质折叠问题是生物学50年来的重大挑战,这项计算工作代表了对该问题研究的惊人进展。这出乎许多业内人士的预料。看到它将从根本上改变生物学研究,我们将感到振奋。”Elizabeth Blackburn,2009年诺贝尔生理学医学奖,加州大学旧金山分校荣休教授“随着这些由DeepMind首创的革命性蛋白质结构研究方法的普及,这将为科学界打开了解基因组序列的生物学意义的新窗口。”Patrick Cramer,马克思·普朗克生物物理化学所主任“DeepMind和EMBL提供的绝佳资源将改变我们进行结构生物学的方式。这些预测展示了机器学习的力量,并服务于全世界的科学机构,这些机构提供了开放数据,使这一突破性成就得以实现。这是一个开创性的例证:21世纪如何开展科学研究。”Ben Perry, 被忽视疾病药物倡议(DNDi)的领导者“我们需要为全世界数百万面临被忽视疾病风险的人极大地加速新药发现。人工智能可以改变游戏规则:通过快速准确地预测蛋白质结构,AlphaFold开辟了新的研究视野,提高了研发的范围和效率,促进了我们在疾病流行的国家的研究。看到强大的尖端人工智能能够解决几乎只集中在贫困人口中的疾病,令人鼓舞。”John McGeehan,朴茨茅斯大学酶创新中心主任,结构生物学教授“我们的任务是为塑料的循环利用开发创新酶的解决方案。这项技术正在以一种无人能预料到的方式加速我们的研究。DeepMind提供的开放访问将改变整个社区,让每个人都能做这些类型的实验。我们花了数月和数年的时间,AlphaFold在一个周末就能完成。我觉得我们比昨天至少提前了一年。”
https://www.port.ac.uk/research/research-centres-and-groups/centre-for-enzyme-innovationMarcelo Sousa,科罗拉多大学博尔德分校生物化学系教授“AlphaFold的预测最终解决了困扰了我们10多年的实验难题,加速了我们对抗生素耐药性的研究。这些预测是如此精准,以至于开始时我认为我可能做错了实验设置。”
Sundar Pichai,Google & Alphabet CEO
“AlphaFold数据库显示了人工智能深刻加速科学进步的潜力。DeepMind的机器学习系统不仅在一夜之间极大地扩展了我们对蛋白质结构和人类蛋白质组所积累的知识,而且它对生命组成部分的深刻见解为科学发现的未来带来了非凡的希望。”
Pushmeet Kohli,DeepMind,AI for Science首席科学家“我们的团队一直在通过AlphaFold预测蛋白质的结构,进而破译和解锁蛋白质世界。我们正通过一个数据库向每个人提供AlphaFold的预测,最大限度地利用这些由结构带来的洞见来取得科学进步。这个数据库和 AlphaFold 有可能开辟科学研究的新途径,最终将促进我们对生物学和生命本身的理解。我们相信,这将对与健康和疾病、药物设计过程和环境可持续性等问题的研究产生变革性影响,我们非常兴奋地期待在未来数月和数年内开发出什么样的应用。”
John Jumper, DeepMind,AlphaFold 首席科学家“随着数据库的扩展,几乎每一类蛋白质的结构都将可以获得。AlphaFold数据库很可能变革我们处理生物信息学的方式,即DNA和蛋白质的大规模研究,因为它将使我们能够以近乎原子精度研究所有已知生物的蛋白质。我们乐观地认为,AlphaFold的前景和机器学习的进步将推动蛋白质研究进入一个令人兴奋的新阶段,在这一阶段,深度学习工具能够与实验方法一起定量理解生物学。”Kathryn Tunyasuvunakool,DeepMind,研究科学家“AlphaFold模型可以用来帮助实验确定结构。对结构有一个足够准确的初步预测,将使研究人员能够重新访问和解决以前无法建立模型的旧X-ray数据集和cryo-EM maps。这是计算方法与实验方法相辅相成的绝佳例子。”
Dame Janet Thornton,EMBL-EBI荣誉主任
“人工智能是AlphaFold预测的基础,而预测则基于全世界科学家在过去50年中收集的数据。开放这些模型无疑将激发蛋白质结构的实验和理论研究人员将此新知识应用到他们自己的研究领域并开拓新领域的兴趣。这有助于我们对生命系统的认识,并为人类开启一切机会。”Sameer Velankar,EMBL-EBI首席科学家“自人类基因组革命20年来,AlphaFold是生物学研究的重大突破。蛋白质的功能由其结构决定,AlphaFold蛋白质结构数据库将提供数以百万计的蛋白质结构,加速发现过程。前所未有的数据规模将掀起新一轮创新浪潮,帮助我们应对从健康到气候变化的挑战。”Christoph Müller,EMBL,结构与计算生物学小组首席科学家“这是巨大的进步。AlphaFold的结构预测将大大加快结构生物学研究,并将使蛋白质三维结构更成为生命科学研究的焦点。”
DeepMind 发布详细的算法,公开源代码,共享训练数据,对学术界而言,可谓几家欢喜几家愁。无数实验研究组和应用型计算研究组都将获益,花几十万人民币,或者实验室单独购买,或者学校平台合资购买,配置一台能跑动 AlphaFold2 的工作站,就将能自主地、大大加速自己的研究。
然而,对于开发方法的竞争者而言,打击不可谓不大 —— 原因也简单,跑死马也追不上啊!如果DeepMind不开源,那么各家还可以根据推测的算法自行开发,声称只是根据科学原理完成了相似的工作;但是,AlphaFold2 开源之后,任何一个有志于开发独立方法的团队都不可能不读 AlphaFold2 的论文,不研习它的方法。这样就无法回避知识产权问题 —— 这点对工业界的竞争者尤甚。可是,凭借学术界的小团队人员配备与经济实力,除非 DeepMind 如对待AlphaGo一般停止对 AlphaFold 的更新训练,否则,如何赶得上?须知道David Baker的研究组已经是首屈一指的航母般的巨型研究组了。一般小组三五七个人怎么追赶?另一方面,我感慨、赞美DeepMind开源数据库的胸襟和气魄。诚然如上文 EMBL主任 Edith Heard 所说,DeepMind 采用PDB等公共数据库内的数据训练了AlphaFold模型,而那些数据来自过去50年来全世界科学家点点滴滴的积累;由此观之,DeepMind将预测模型免费开放给全世界符合逻辑,似乎理所应当。但是依此逻辑,Springer, Elsevier, Wiley 等出版商就应该免费向学术界提供论文,不是吗?配置超算设备不花钱么?训练模型不花钱么?雇佣顶级科学家和工程师不花钱么?DeepMind不用赚钱么?即使将这样庞大的数据库商业化,愿意付费者恐怕也应者如云吧?药厂争着就要用。把它当作 IPO 时讨价的资本不香吗?这是变革的时代。DeepMind 让大家认识到工业界也可以做出不逊于学界的前瞻性、探索性的基础科研,而不是仅仅亦步亦趋地做工程性科研。所需要的是,雄厚资本的倾注,对短期商业化收支平衡表的无视,单纯的科学探索之心,造福全人类的无私情怀,一群对的人,以及对科研员的尊重:待遇给够、更专业的人领导专业的人。https://alphafold.ebi.ac.uk/https://www.ebi.ac.uk/about/news/press-releases/alphafold-database-launchhttps://www.blopig.com/blog/2021/07/alphafold-2-is-here-whats-behind-the-structure-prediction-miracle/