打造蛋白质组学领域的「AlphaFold」,西湖欧米郭天南:AI+多组学是21世纪生命科学的重要研究领域 |专访

过去不到一年的时间里,AlphaFold2 不仅破解了困扰学术界长达五十年之久的 “蛋白质折叠” 难题,并正式官宣免费开源,向公众开放了迄今为止最完整、最准确的人类蛋白质三维结构数据库。
“AlphaFold2 通过氨基酸序列即可对蛋白质结构做出精确预测,这确实令人惊叹,然而如果把生命体比作手表或者汽车,蛋白质就是生命活动的齿轮和零件,只知道齿轮的形状(即蛋白质结构)远不能组装成手表或者汽车。因此如果要了解人体的运转机制,不仅需要知道蛋白质长什么样子,更需要了解机体细胞组织中细胞在各种状态下蛋白质的类型和数量,这是蛋白质组学所做的事情。” 蛋白质组学大数据初创公司西湖欧米创始人郭天南博士说。
他是西湖大学蛋白质组大数据实验室特聘研究员,多年来一直从事蛋白质组学研究,在蛋白质组技术开发和应用上做出了多项原创性成果。在苏黎世联邦理工大学从事博士后研究期间,曾开发了一项基于质谱的微量生物样本蛋白质组分析技术,据悉,这也是 Nature Medicine 上唯一一篇关于蛋白质质谱技术相关的论文。进入西湖大学以后,郭天南博士及其团队也一直在优化和改进这项技术。
图 | 西湖欧米创始人郭天南博士(来源:受访者提供)
“约六年前,FDA 首次提出将蛋白质谱技术应用于临床试验中,然而至今还没有产品真正获批。我们希望能在中国将蛋白质谱真正推向临床和疾病诊断应用中。”
2020 年 7 月,郭天南决定把在蛋白质组学领域多年的研究成果落地,并通过 “西湖英才计划” 正式成立西湖欧米生物科技公司。“西湖英才计划” 是西湖区 2020 年启动的一项引智工程人才政策。
2021 年 3 月,西湖欧米完成了辰德资本、高榕资本、高瓴创投参与的种子轮融资。
在采访中,郭天南告诉生辉,只要和生命相关的领域,都会有蛋白质组的用武之地。西湖欧米致力于打造蛋白质组学领域的 “AlphaFold”。
(来源:受访者提供)
目前,该公司正在进行 Pre-A 融资,并在推进甲状腺结节良恶性诊断产品的定型以及临床试验,同时其有多个产品管线正处于不同的阶段。西湖欧米正在加强 AI + 多组学数据团队建设,并尝试将蛋白质组学应用于疾病诊断和药物开发的各个环节。
“AI + 多组学是 21 世纪生命健康的重要研究领域”
通常情况下,许多疾病诊断的 “金标准” 是通过依靠病理学对细胞形态的观察和描述。随着技术快速发展,越来越多的分子诊断作为辅助手段应运而生。然而,目前绝大多数分子层面的辅助诊断多为基因层面的检测,单一层面的分子变化水平,对于复杂疾病的诊断价值十分有限。因此,多组学技术也越来越多地被应用于疾病病因研究中。
(来源:biomech)
“分子是生命活动的本质,分子生物学层面的基因组、转录组、蛋白质组、代谢组等多组学研究的意义就相当于 “超级显微镜” 的发明,能够有效地帮助我们去观察和研究,从而更好地诊断检测疾病。不同组学层面的分子是生命活动的基本元件,而人体复杂的系统需要利用 AI 技术去分析与辅助理解,AI + 多组学是 21 世纪生命健康的重要研究领域。” 郭天南告诉生辉。
“我很看好蛋白质组学在疾病诊断和治疗领域的发展潜力,这种技术可以真正帮助医生从微观世界分析疾病特征。蛋白质组学有潜力成为与病理检测并驾齐驱的另一种重要技术,将 AI 技术引入蛋白质组学当中,二者结合更有可能达到精准医学的目的。” 西湖欧米 AI 专家胡一凡说。
“实验室技术的突破,促进了蛋白质组学领域数据量的提升,催生了数据驱动的生物医疗产品出现。” 西湖欧米数据科学家王博介绍道。
图 | 左为西湖欧米 AI 专家胡一凡、右为西湖欧米数据科学家王博(来源:受访者提供)
郭天南补充道二十年前,互联网的兴起催生了一大批优秀的公司,也促成了一大批科技成果的转化;而近年来,这些科技基础将会催化影响生命科学领域的大企业的萌芽。我们希望可以身处其中,以大数据 + AI 的技术模式发现生命健康在微观层面的运动规律,并以此辅助健康状态的监测以及疾病的诊断与治疗。
样本量少、精度高
“蛋白质既可以诊断疾病,又可以用于开发有效的药物靶点。蛋白质组学技术的广泛应用,有可能颠覆性改变整个疾病诊疗的范式。” 郭天南说。
据他介绍,人体出现疾病的时候,基因不一定会发生变化,但蛋白质作为生命活动的执行者,往往会出现丰度和功能的改变,所以我们可以通过微创或无创的技术对机体的蛋白质组进行实时状态的检测,并配合海量数据库对健康状态进行评估。
“一个细胞的蛋白质组体系甚至比地球所有交通系统都要复杂,想要进一步研究探索蛋白质组学,需要研究系统生物学,采用系统科学的方法。” 郭天南说。
于是,郭天南提出了 “蛋白质大数据” 这样一个概念,通过质谱检测逐步地产生蛋白质大数据并利用 AI 建模分析。通过这种方法预测和解释蛋白质表达、数量、种类之间的关系,分析健康与疾病状态的变化,以及用药前后蛋白质变化等。
现阶段,西湖欧米的业务聚焦在疾病诊断和药物研发等方面。
(来源:受访者提供)
郭天南告诉生辉,西湖欧米质谱蛋白质组学的一大优势在于检测所需的样本量更少,准确度更高。
要实现这一目标的关键在于压力循环技术(Pressure Cycling Technology),这是一项新型、高效的生物样品制备专利技术。该技术可以利用多次常压和超高(液)压之间的快速循环,实现生物分子的精确提取。这种方式可以彻底改变产品取样难的问题,可以应用于基因组学和蛋白质组学样品处理,以及新药研发等领域。
预计明年年初完成产品定型
目前,西湖欧米团队规模大约 80 人,主要业务包括 AI 赋能蛋白质组分析技术、科研服务和临床试验,比如针对各种临床样品与生物样品的蛋白质组分析,甲状腺结节良恶性诊断产品的定型等。
“此前我们在西湖大学已经进行了大量的科学研究,数据证明 AI + 蛋白质组学是可以进行甲状腺结节良恶性判断。我们现阶段的关键在于如何将这项技术应用到临床诊断,规模化做出物美价廉的产品。
甲状腺结节发生率高,中国成人甲状腺结节发生率约为 20.43%,平均每 5 个人里就有 1 个人有甲状腺结节。甲状腺结节有良恶性之分,但却没有特异的临床表现,因此仅靠触诊、超声检查以及体检往往无法做出精准判断,需要病理学、化验等结合才能避免 “漏网之鱼”。
2020 年 6 月,郭天南团队参与研究的论文发布在 MedRxiv 杂志上,该研究利用蛋白质组大数据和 AI 手段,发现了一组可以区分甲状腺结节良恶性的蛋白质分子标记物。
(来源:MedRxiv
也这是基于这项研究,西湖欧米的第一个突破点瞄准了甲状腺结节蛋白质组的大数据,同时还开发了针对甲状腺结节的 AI 模型。
郭天南告诉生辉,目前西湖欧米针对甲状腺结节已经收集了超过 3000 例样品的蛋白组学分析数据,同时还收集了 1000 多例前瞻性样品。而且正在利用临床质谱进行数据采集和 AI 建模,开发针对甲状腺结节的诊断产品。
现阶段,该产品管线进展最快,预计明年年初产品会完成定型。
代谢综合征是他们团队选择的另一个适应症,该类疾病大约影响了 30% 的成年人,且发病率随年龄增长,而逐步上升。据介绍,西湖欧米针对该类疾病已经进行了一万多个血液样品蛋白质组学样品分析。
郭天南补充道,西湖欧米还在希望推进一个健康诊断项目。该项目针对没有疾病表征的健康及亚健康人群,判断他们是否存在疾病征兆。其原理则是检测尿液中的蛋白,因为尿液蛋白与机体免疫和代谢密切相关,利用质谱仪检测尿液中的数千种蛋白,推出健康人群尿液蛋白质组学检测的健康诊断产品。
据了解,西湖欧米还计划在 2-3 年内开拓基于蛋白质标志物对多种疾病的检测。
“没有数据支撑的 AI 模型是空中楼阁”
“数据越多,AI 用武之地会更大。现有数据大部分是宏观数据,而人体生命活动实际上是微观世界蛋白质活动组成的,宏观层面的变化往往通过微观层面的变化反映出来。” 郭天南说
数据将是西湖欧米绕不开的话题,当前该公司的重中之重就是产生足够的针对微观世界的蛋白质组学数据。
通过大量的蛋白质组数据以及分析所得的独特数据,西湖欧米的 AI 团队也会对机体生命活动有一个更加深入、更具有前瞻性的理解。
以 AlphaFold2 为例,该 AI 模型是基于多年积累近十几万级别的蛋白质三维结构数据库而开发完成的,且利用了一定的生物学先验知识。因此,在这些数据和知识的基础上,AlphaFold2 才能建立 AI 模型,精准预测分子以及氨基酸的位置。预测精确高的关键就在于大量的数据以及生物学知识的深入理解。
没有数据支持的 AI 模型是空中楼阁,西湖欧米 AI 模型的优势就是数据独特、精确、且数据量大。” 胡一凡总结道。
(来源:Brief Bioinform.
西湖欧米要利用蛋白质组学进行疾病诊断,就需要开发不同疾病的 AI 模型,一个重要前提就是需要足够的蛋白质组数据和理解不同的数据,并挖掘数据背后的生物学意义。
但目前,蛋白质组学领域整体数据不足,比较零散。
“我们要搭建蛋白质组学领域的'AlphaFold’,必须做好数据准备和收集工作并标准化所收集的数据,产生数据关联,挖掘出数据的生物学特征和意义,在以上数据基础上建立可靠的 AI 疾病诊断系统,最终搭建一套端到端疾病模型系统。” 胡一凡说。
“大数据可以分为三个方面,分别是数据体量大、数据变化快,数据种类多。蛋白质组学大数据的关键在于体量和种类,我们的目标是产生百万级蛋白质组学数据。” 王博介绍道。
一般来说,越复杂的数据模型往往需要大量的多维度数据进行训练,同时对数据可解释性的要求也会增加。
王博告诉生辉,西湖欧米计划通过产生多组学数据,然后把不同维度的数据整合在一起,建立更复杂、更全面的模型,比如说深度学习模型。
具体来说,第一,产生足够的蛋白质组数据,并结合统计学和生物学知识开发一套数据质量评价系统,以快速有效衡量数据质量;第二,对数据进行多层分级,将数据分为原始数据,预处理的数据及基于生物学意义扩充的数据,并不断迭代;第三,建立数据目录记录元数据及解释数据,以提升数据的可解释性、可追溯性以及可用性。
参考资料:
  • https://www.clinicaltrialsarena.com/news/rubius-therapeutics-red-blood-cell-therapy-reduces-cancer-tumours-clinical-trial/

-End-

(0)

相关推荐