从基因测序到蛋白测序,从密码到产物,是近几十年生命科学破解书写生命奥秘的工作核心。在攻克以癌症为首的各类疾病的终极目标之下,高通量的疾病标志物筛选与个性化精准医疗是生物药研发与应用的一体两面,其中的核心是数据。由加拿大皇家科学院院士李明教授在中国创办的百蓁生物,以 “精准数据驱动,服务医药研发” 为公司目标,致力于生物医药研发领域的质谱方法开发和服务。百蓁生物与 Bioinformatics Solution Inc.(BSI)紧密合作,搭建了领先的蛋白从头测序、抗体表征、新生抗原发现的技术平台。(来源:百蓁生物)BSI 是世界领先的生物信息软件公司,位于加拿大享有 “硅谷” 之称的安大略省滑铁卢市。BSI 在质谱数据分析领域拥有 20 年的经验积累,专注于为基因组学,蛋白质组学和生物技术行业的发展提供数据分析原动力。BSI 的科学团队不断参与研究和算法的进步,并最大限度地从原始质谱数据中提取信息。与世界各地的用户和专家密切合作,为行业提供了领先的算法和软件解决方案,以促进对生命科学的理解,并旨在阐明重要的生物学问题。旗下著名的 PEAKS 软件系列产品在全世界范围内拥有数千家学术和工业界用户。近几十年中,大分子药物创新研发比重伴随着技术的革新而增加,从 GEN 每年统计的全球 top15 药物销售[1]来看,抗体药物也连续多年占据半壁江山。蛋白的序列与结构相关,结构与其执行的生物功能相关。无论是蛋白的鉴定、量化还是序列、结构的分析,质谱仪在大分子领域的应用大大推动了蛋白质的科学发现速度。作为一直走在行业前沿的 BSI 在蛋白质质谱研究领域开创了多个第一。开创完整蛋白全自动从头测序方法,推动生物药质谱精确深度表征抗体类药物是抗体产品及其相关杂质的混合物,抗体的测序及表征工作对于抗体的产品质量有着至关重要的作用。例如,CDR 区氨基酸修饰降解或者序列突变,可能造成亲和能力降低,改变结合特异性,增加免疫原性;人源骨架区域修饰降解或者序列突变,可能增加免疫原性,改变活性和药代药理;肽谱表征错配二硫键可以发现高级结构变异体。广义上的蛋白质测序方法包括:Edman 降解法,de novo(从头测序)和间接从细胞转录组测序的预测序列。随着质谱的分析技术的普及应用,蛋白序列的从头测序,特别是抗体蛋白的从头测序技术逐渐得以应用。早在 2013 年,de novo 算法领域的领跑者 BSI 就首次提出了基于质谱方法、应用 de novo 核心技术的未知抗体从头测序的实验与数据分析技术工作流程[2] ,并于 2016 年在世界首次自动从头测序单抗。在全球报道了第一个全自动抗体从头测序的软件[3],拥有数百家生物制药企业的服务客户群体。BSI 的方法最终代替了 Edman 方法,形成了一个崭新的抗体从头测序市场。百蓁生物全面引进了 BSI 从样品到数据的完整抗体解决方案,并且与 BSI 建立了排他性的质谱实验技术新方法合作开发的模式。图 | 2013 年首创单抗测序表征工作流[2](来源:BSI)图 | PEAKS AB 抗体测序自组装结果(来源:BSI)图 | 未知糖基化修饰发现(来源:BSI)图 | 二硫键表征(来源:BSI)目前 BSI 和百蓁在抗体药物早期发现的工作流中,开发了第二代抗体蛋白测序技术,可以高效地获得多样性的天然抗体,方便大规模表达与筛选,从而加快了抗体药物的发现和鉴定。首创基于质谱的新抗原从头测序流程,填补转录组与真实抗原肽之间的鸿沟 2017 年,在个体化免疫治疗如火如荼兴起之际,个体化新抗原发现成为一个未解难题。Nature Biotech. 呼吁:Personalized immunotherapy is all the rage, but the neoantigen discovery and validation remains a daunting problem” [4].同年,Nature Biotech. 继续呼吁:“… this task should be done by mass spectrometry [MS]. However MS approach is fraught with sensitivity issues and likelihood of missing important epitopes” [4]. 由于新抗原不在数据库中,质谱仪从头测序成为免疫多肽组数据分析方法中的首选。从那时起,作为占据世界蛋白质谱从头测序的商业软件市场 70% 的 BSI,开始了基于质谱解决新抗原从头测序这个难题的研究。历时 4 年,BSI 解决了一系列关键技术,搭建了从多肽出发的新生抗原发现平台,掀起了个体化肿瘤新抗原发现的技术革命。由于新抗原在细胞表面上相对稀疏,并且不在数据库中,BSI 研究者们面临如下挑战:1. 从算法上,需要大幅度提高 10 年来徘徊不前的从头测序精度。BSI 传统的 PEAKS 软件的 de novo 用的是动态规划算法。BSI 在世界上首次将深度学习方法引入蛋白组学。2017 年 8 月在 PNAS 上发表了 DeepNovo。DeepNovo 如图(红色,[5])革命性地改进了世界上所有从头测序精度,包括 BSI 自己的 PEAKS。DeepNovo 现在是全球从头测序的标杆。(来源:BSI)2. 从质谱仪器方法的角度,使用 Data-Independent Acquisition (DIA)质谱采集方式,并能精确解释 DIA 数据。质谱仪的 DIA 模式不丢失数据,但是一个二级质谱中可能包含数个肽段所产生的碎片,所有碎片混合在一起,难以判断其来源,因此测序任务非常复杂。传统的 PEAKS 程序使用动态规划 n 平方时间。如果我们仍然使用动态规划,两个肽段就需要 n 的 4 次方时间。BSI 再一次使用深度学习解决了这个问题,在世界上首次提出针对 DIA 的从头测序算法,发表在 Nature Methods 2019 [6],并将其作为成熟的商业化软件产品提供给用户,如图。(来源:BSI)3. 就分析速度而言,随着精度更高的质谱仪的出现,以及蛋白组学大规模数据的需求,软件系统不能随着质谱仪精度提高而跑得更慢。目前所有的从头测序算法,不论是 PEAKS 的动态规划,或者是 DeepNovo 的神经网络,都会随精度提高而大幅度减慢速度:BSI 团队 15 年来打造的大型系统 PEAKS 是动态规划 O (n2) 时间,提高一个小数点的精度,n 增加 10 倍,对应速度慢 100 倍。DeepNovo 使用的神经网络则需要增加 10 倍的神经元。BSI 的研究者使用了三维深度学习 Point Net 最终解决了这个问题,新版 DeepNovo 不但速度快,不依赖于质谱仪精度,准确度(绿色)也进一步大幅度改进了 DeepNovo (红色) 和 PEAKS (蓝色), 发表在 Nature Machine Intelligence,2021 [7]。(来源:BSI)随着质谱扫描速度的提高,谱图量激增,广大用户对于数据分析的速度需求也越来越快。 DeepNovo 不仅从数据分析的算法角度大大推动了免疫多肽组学的研究,也对质谱硬件数据采集方法有所帮助。目前,DeepNovo 算法已经可以与质谱硬件集成,在 BSI 与布鲁克质谱合作开发并发布了用于 timsTOF Pro 的 PaSER Box 质谱组件中实现实时肽段从头测序的方法。考虑到 PASEF® 的扫描速度最高约 220 Hz,扫描速度的中位数约 120 Hz,也就是平均每秒产生约 120 张二级谱图,而 DeepNovo® 在 GPU 的运算处理中,可以达到每秒钟 300 + 谱图的解析速率,轻松承担实时分析的工作。因此,DeepNovo® 方法的加入,可以实现在质谱数据采集的过程中,一边采集一边计算,当仪器采集完成,对多肽的从头测序结果可以直接输出的模式。进一步来说,可以实现采集 + 校正的动态模式。4. 利用个体化数据进一步改进。BSI 的研究者进一步发现,每个人的免疫肽段组可以用来为自己训练一个更好的个体化 DeepNovo,如图。这样更进一步改进了从头测序精度。至此,BSI 已经实现了仅仅靠质谱仪从头测序新抗原,其个体化从头测序远好于其它方法 [8].通过把 DeepNovo 集成在 PEAKS 软件中的解决方案整合到免疫肽组学质谱工作流程,仅通过从头测序就能够发现更为多样性的 HLA-I 肽段 [9]。(来源:BSI)四年来,BSI 的研究者通过一系列文章 [5-8],圆满地完成了 Nature Biotechnology 提出的质谱仪从头测序新抗原的挑战,如今他们开始用自己的技术服务社会。BSI 推出了 DeepImmu 的免疫多肽组服务和数据的整体解决方案,如图。百蓁生物则将这套流程落地中国,服务广大医药研发用户。(来源:BSI)参考资料:[1] Top 15 Best-Selling Drugs of 2020, GEN - Genetic Engineering and Biotechnology News.[2]. Shan, B & Xin, L. Integrating de novo sequencing and database search for monoclonal antibody sequencing. ABRF, 2013.[3]. Tran NH, Rahman MZ, He L, Xin L, Shan B, Li M. Complete De Novo Assembly of Monoclonal Antibody Sequences. Scientific Reports. 6 (31730). 26/08/2016[4]. Nature Biotech., Editorial, Feb. 2017, Nature Biotech. Correspondence, Sept. 2017.[5]. Tran NH, Zhang X, Xin L, Shan B, Li M. De novo peptide sequencing by deep learning. Proceedings of the National Academy of Sciences of the United States of America. 114 (29). 18/7/2017.[6]. Tran NH, Qiao R, Xin L, Chen X, Liu C, Zhang X, Shan B, Ghodsi A, Li M. Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry. Nature Methods. 16 (1), 63-66. 20/12/2018.[7]. Qiao, R., Tran, N.H., Xin, L. Chen, X, Li, M., Shan, B., Ghodsi. A. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nat Mach Intell (2021). doi:10.1038/s42256-021-00304-3[8]. Tran NH, Qiao R., Xin L., Chen X., Shan B., Li M,Personalized deep learning of individual immunopeptidomes to identify neoantigens for cancer vaccines. Nat. Mach. Intell. (2020)[9]. Hoffman, Kyle S., Shan, Baozhen, Krieger, Jonathan R.,A facile immunopeptidomics workflow for capturing the HLA-I ligandome with PEAKS XPro. bioRxiv 2021.05.20.444976-End-