百度生物计算平台螺旋桨负责人:预训练技术在生物计算中的新应用

日前,由中国首家生物计算技术驱动的生命科学公司百图生科,与致力于 IT 和 BT 交叉融合的创新孵化中心播禾创新共同主办的 “首届中国生物计算大会” 刚刚落下了帷幕。

会上,围绕 “BT&IT” 主题,产学研资各领域专家各显神通,从不同角度探讨生物计算的定义、边界以及 AI 对于生物数据的意义等话题。

在生物计算与新算法分论坛,百度自然语言处理部技术总监、螺旋桨 PaddleHelix 生物计算平台负责人何径舟带来了题为《大规模预训练技术与药物研发》的演讲。

他从 AI 研发者视角,与大家分享了一些百度在生物计算体系上所做的思考,包括如何看待 AI 在生物医药中存在的机遇和挑战,以及 AI 领域的前沿进展,以及基于这些进展如何助力生物医药领域。
以下为演讲实录,生辉进行了未改变原意的修改:
生物医药行业的新发展和新机遇
首先,我想站在 AI 从业人员的角度,谈一谈我们是如何看待生物医药行业所面临的新发展和新机遇。
全球生物医药规模持续增长,但是医药研发的效率不断下降,研发一款新药投入的成本和时间越来越呈指数级的增长。这也是为什么整个行业都在寻找一种可以解决这些问题的技术。
我国作为第二大医药市场,研发投入远低于欧美,研发投入占比不足。然后 2015 年开始,国家一系列的政策,2018 年包括香港港交所开放了金融机会,让没有营收的药企去上市,以及医保扩容,所有这些因素提高了我们对创新药和生物医药技术探索的积极性。所以,大家开始越来越重视 AI 技术了。
(来源:Sina)
AI 在很多的环节中均已证明其有较高的价值,特别是在药物发现和临床前研究中,包括靶点发现、化合物合成等,这些领域证实了 AI 可以带来很多的价值。但是从 AI 的角度来看,这些探索都还是处于早期的阶段,还有大量算法、算力问题有待解决。
百度在这方面投入了大量的精力,去年底我们开发了螺旋桨 PaddleHelix—— 生物计算开源工具集。该平台融合了百度多年在 AI 算力和算法的积累,为用户提出一整套的解决方案,为药企、合作伙伴、对生物医药感兴趣的同仁提供了在药物研发、疫苗设计和精准医疗方面能力的整合。
预训练技术的发展
下面,我讲一讲预计算、作用以及它的价值。
预训练技术是一个非常新的概念,从诞生至今可能才七八年,但预训练技为 AI 应用极大提升了场景效果,可以说这是一次革命性的技术变革。

预训练的概念是在自然语言领域中使用起来的,通过大规模数据形成神经网络参数然后形成超大的神经网络,这是预训练的模型。针对不同的领域,加上预训练模型进行微调,使得效果超出原有领域定义的模型。

这与人的成长非常类似,早期我们接受通识教育,不会区分具体的学科和领域,而是接触语文、数学基本能力的提升,积累尝试和学习的能力,然后再进行具体专业(生物学、金融学、医药)等专业学习,相当于专业技能的提升过程。预训练就是这样一个过程,可以分成通识学习和专业领域的阶段,以此达到更好的效果。
(来源:infoq)
预训练的优势之一是利用无标注的数据,解决 AI 数据壁垒问题。通过机器学习,分成数据预训练和精调的阶段,并且在不同领域之间做快速地迁移,大幅提升 AI 生产效率、降低 AI 生产门槛。
预训练模型在很多领域取得了较大的进展和突破,特别是在自然语言处理领域。在没有预训练模型前,效果不理想。但是,加入了预训练通用的语言理解数据集和 GPT 模型后,不管是 W/O 还是 BERT 的模型都超出了原有水准。还有源计算、翻译等,预训练都提高了层次。
除了自然语言处理,预训练也向语音、多模态进行拓展,包括跨模态理解。当然预训练不是学术研究的进展,而是在很多场景上落地,比如说搜索引擎,翻译、语音助手等。
回顾整个预训练发展过程,最早是从自然语言处理来提出的。实际上 2015 年在 ResNet 上就提出了预训练的机制,而 2018 年提出了各种预训练的技术,比如 ELMo,到 2019 年提出 BERT,然后 ERNIE 和飞桨,然后 2020 年提出 GPT,几乎推进到了实用阶段。
最近这段时间,整个预训练所呈现的趋势是超大规模的模型,千亿级别甚至是万亿级别的规模不断地被训练出来,多模态的场景、联合实验场景等。
预训练技术在生物计算中的应用
今天我们讲的生物计算,其中生物数据可以通过预训练的技术提升数据整合能力。
生物计算中如何利用预训练?
刚开始我们提到其最大优势是大量的无标注数据。通过研究和积累中也发现,其实生物计算中,我们能够拿到的高质量数据有限。以成交性预测,或者蛋白质和靶点结合和深度数据包检测的数据来看,最多就是几千和十几万的规模,这些数据规模远远达不到成熟利用 AI 的领域。
但是,在已发现的蛋白质和化合物的数据规模还是非常大的,都达到了上亿级别,所以这启发了我们通过预训练的技术,将无标注的数据集合起来。通过自监督、多任务训练把这些数据利用起来,使得我们充分利用 AI 在药物研发和药物设计领域发挥作用。
做预训练时需要解决的是处理对象的问题,从最常见的化合物、蛋白质、组学数据、基因学和表型等都是可以作为处理对象的。有一些可以通过 AI 现有的方法直接做迁移,比如说蛋白质和化合物,常见的是通过化学式和蛋白质多肽序列建模。
同时,还有一些问题无法通过最简单的结构进行表示,需要用到空间结构和 3D 结构更高维度的建模。
然后,还要进行预训练任务的建模,比如通过常规的 AI 方法迁移过来。化合物和空间结构信息在后续更复杂和更实用的处理中必不可少。因此,螺旋桨提出了 3D 结构任务,比如说键角预测、键长预测和空间距离的预测,还采用了多任务融合,来增强建模的效果。

(来源:baidu)
蛋白质的训练需要深入思考和深度研究。我们将蛋白质的空间结构信息引入建模结构中,我们提出基于 Contact  map  Prediction(空间构象预测),加强蛋白质建模的效果。
做到了这些模型的建模,下一步就是到了应用。比如说,药物 - 靶标相互作用(DTI)的预测,将化合物和蛋白质的表示输入双塔预测模型,直接做化合物和蛋白质的预测,同时我们将分子指纹等化合物的信息去做 ADMET 的预测,也达到了一定效果。
成果和展望
从预训练技术来看,不管是做生物计算还是 AI 落地都还处于早期的阶段。我刚才提到随着算法和算力的不断演进,仍然有很大的研究空间。
但是,也要认识到这项工作仍然道阻且长,还有很多技术难点需要研究和攻克。
第一,对于各种连续性的建模和预测;
第二,和自然语言处理的领域不同,在生物计算领域,要解决很多联系的问题,这个联系分内和外,一种是内部的层次,像很多的蛋白质、化合物,RNA、DNA 和生物表征、基因型、表征型,都是解决原子、氨基酸和氨基酸,碱基和碱基之间的关系,这种关系的刻画还不够,需要更多的信息对它们深入理解。
另一种是外部联系,对于单独的蛋白质和化合物的建模,我们更要解决的是蛋白质和化合物,以及生物表征之间更多的联系,包括能否通过跨外部联系建模,这是预训练的难点;
第三,充分利用信息,我们很多人会有先入为主的认识,觉得 AI 进入会大杀四方。其实,任何领域的研究都是循序渐进的过程,就像我提到引入键长、键角和空间信息,也是学习了很多生物信息领域知识以后才得到的教训和经验。
-End-

(0)

相关推荐