图神经网络在生物医药领域的12项研究综述
编辑/文龙
2020年,图机器学习(Graph ML)已经成为机器学习(ML)领域中的一个备受关注的焦点研究方向。其中,图神经网络(GNN)是一类用于处理图域信息的神经网络,由于有较好的性能和可解释性,现已被广泛应用到各个领域。
图是一种强大的工具,可以表示由各种人工和自然过程产生的丰富而复杂的数据。图可以视为具有以下特征的结构化数据类型:顶点(保存信息的实体)和边(保存信息的顶点之间的连接),因此具有组成性质和关系性质。图提供了处理关系和交互这些抽象概念的一种方法,还提供了用直观的视觉去思考这些概念的方式。
GNN 的目的是使图中的每个顶点学习包含有关其邻域(通过边直接连接到目标顶点的点)的信息的嵌入。此嵌入可用于顶点标签、顶点预测、边预测等不同问题。因此,在与每个顶点进行嵌入后,我们可以通过添加馈送神经网络层来转换边进而组合图和神经网络。
「对于Graph ML研究来说,这是令人震惊的一年。在所有主要的ML会议上,有关该领域的所有论文中约有10%至20%,并且在如此规模下,每个人都可以找到自己感兴趣的有趣的图主题。」Criteo研究员、Graph Machine Learning newsletter编辑员Sergey Ivanov如是说。
GNN在生物分子结构以及分子之间的功能关系和集成多组数据集模型方面的能力,使得它在医疗行业中受到越来越多的关注。本文就将聚焦于Graph ML在医疗领域中的应用,分享2020年值得关注的几篇论文,包含脑科学、医疗诊断、药物研发以及COVID-19四部分。
脑科学
这一年,图机器学习在医疗成像中取得了非凡的成就,尤其是大脑方面,包括脑区分割、脑结构分析。另外,关于人脑的研究提供了模型的可解释性,这对于临床和技术专家来说有着关键意义,表面可以将图机器学习可靠地合并到计算机辅助诊断(CADx)系统中。
论文题目:图域自适应恒对齐的脑表面分割
简介:文章提出了一种针对脑表面图的新型对抗域自适应框架。提出的算法利用对抗训练机制来获得广义的脑表面分割,使得直接跨多个大脑学习表面数据并对大脑不同皮质区域进行分析成为可能。他们使用一组图卷积层直接在源域的大脑表面上执行切分的分割,并用鉴别器对根据该分割的预测域以及目标域之间进行概括,实验结果表明性能平均提升了8%。
通过将图拉普拉斯算子分解,将输入脑图映射到频谱域。源域和目标域是通过将特征根分别与源引用和目标引用对齐来获得的。segmentator GCN学习预测每个域的通用皮质分割标签。discriminator旨在对分割器预测进行分类,从而帮助分割器GCN适应源域和目标域
论文地址:https://arxiv.org/pdf/2004.00074.pdf
论文题目:BrainGNN: 用于功能磁共振成像分析的可解释性脑图神经网络
简介:文章提出了一种图形神经网络(GNN)框架——BrainGNN,用于分析功能性磁共振图像(fMRI)并发现神经生物学标志物,以此来了解大脑。通过将感兴趣的大脑区域(ROI)定义为顶点,将ROI之间的功能连接性定义为边,将fMRI时间序列定义为成对相关性,文章把大脑建模为图作为输入,然后输出预测结果和解释结果。通过使用不同的内核并使用新的损失项调节中间输出来促进模型的可解释性,提供了在个人级别和组级别的解释。
框架流程图。fMRI图像由图谱分解并转移到图中。然后,将图发送到我们提出的BrainGNN,由BrainGNN给出特定任务的预测。BrainGNN共同选择对预测任务有用的重要大脑区域,并将大脑区域聚集到与预测相关的功能区中。
论文地址:https://www.biorxiv.org/content/10.1101/2020.05.16.100057v1
医学诊断
TUM 博士研究生、医学成像中的Graph ML的多篇论文的作者Anees Kazi说:「在医学领域,Graph ML改变了分析多模态数据的方式,这种方式与专家如何从临床常规操作中的所有可用维度看待患者的状况非常相似。」多项研究已证明可以将图机器学习应用于CADx系统中,潜在的图学习和数据补全解决了ML在医学领域中应用的关于数据集的常见问题。
论文题目:使用多模式数据和图卷积网络识别早期轻度认知障碍
简介:轻度认知障碍(EMCI)是阿尔茨海默氏病(AD)的早期阶段,与大脑的结构和功能变化有关。但是,提取哪些特征以及如何组合多个特征以提高EMCI识别的性能一直是一个难题。文章提出了一种利用多模态数据和图形卷积网络进行的新EMCI识别框架。实验表明该框架在临床实践中对EMCI的识别是有效的。此方法为 EMCI 的计算机辅助识别的区分成像标记铺平了道路。
GCN-EMCI框架示意图。首先基于每个受试者的T1wMRI和rs-fMRI数据,基于自动解剖标记(AAL)地图集作为特征表示,提取每个大脑区域的灰质体积和最短路径长度。然后,为了获得对识别 EMCI 更有帮助的功能,采用了一种通用的多任务功能选择方法。之后,使用成像表型度量和非成像表型测量来构建未完全标记的主题图。最后,应用GCN模型来执行 EMCI 标识任务。
论文地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-3437-6
论文题目:基于边变化图卷积网络的不确定性疾病预测
简介:文章提出了一种可扩展的图卷积框架,该框架可以自动将人群中的影像数据与非影像数据集成在一起,以进行不确定性感知的疾病预测。为了估计与图拓扑相关的预测不确定性,文章提出了蒙特卡洛边缺失的新概念。实验结果表明该方法可以持续显着地提高自闭症谱系障碍、阿尔茨海默氏病和眼部疾病的诊断准确性,这表明可广泛利用多模态数据进行计算机辅助诊断。
提出的方法框架。PAE:成对关联编码器。ED:边缘脱落。GC:图卷积。Fusion:逐顶点级联。图表中绿色和橙色标记为诊断值(例如健康或患病),灰色为未标记;ui:对象i预测的不确定性。
论文地址:https://arxiv.org/pdf/2009.02759.pdf
论文题目:使用多图几何矩阵完成(MGMC)在不完整的医学数据集中同时进行归因和疾病分类
简介:基于大规模人群的医学研究是改善疾病的诊断、监测和治疗的重要资源。为了解决数据丢失的问题,文章提出了通过多图几何矩阵完成(MGMC)对不完整医学数据集进行归因和疾病预测的端到端学习。实验展示了该方法在分类和归因性能方面的优越性,这些发现可作为将来使用不完整数据集的计算机辅助诊断方法的基准。
MGMC使用多个循环图卷积网络,其中每个图代表基于诸如年龄、性别或认知功能等关键临床特征的单体模型。来自本地患者邻域的图信号聚合,再加上通过自注意的多图形信号融合,对矩阵重建和分类性能均具有正则化作用。
论文地址:https://arxiv.org/pdf/2005.06935.pdf
药物发现和研究
GNN不仅可以在精心设计的基准数据集上胜过先前的方法,而且可以为开发新药从根本上帮助人们和理解自然开辟途径,重点包括蛋白质和结构生物学以及药物发现的进展。今年也有相关研究人员对该领域进行了综述,供更多人的去研究。
论文题目:利用图机器学习药物发现和开发
简介:本文在药物发现和开发的背景下,对该主题进行了多学科的综述。介绍了关键术语和建模方法之后,按时间顺序浏览了药物开发流程,总结了包括以下内容:目标识别、小分子和生物制剂的设计以及药物的再利用。文章还就数据集等问题提出了现有模型的一些挑战。尽管该领域仍在兴起,但图机器学习将成为生物医学机器学习中选择的建模框架。
基于 GNN 的药物发现时间表。
论文地址:https://arxiv.org/abs/2012.05716
报告标题:图神经网络用于药物开发
简介:报告讲述了制药的整个流程,讨论了GNN在制药的第三环节(临床研究)和第五环节(上市后的安全监控)中的应用。报告主要阐述了为什么要用GNN、如何使用GNN以及目前的一些成果,给到读者一个直观、清晰且较为全面的相关知识结构。
ppt地址:https://grlearning.github.io/slides/zitnik.pdf
论文标题:基于深度学习方法的抗生素发现
简介:在这项工作中,训练了一个名为Chemprop的深层GNN模型,以预测分子是否具有抗生素特性:对细菌大肠杆菌的生长抑制作用。在仅使用FDA批准的药物库中的约2500个分子进行训练后,Chemprop就被应用于更大的数据集,包括包含分子Halicin的Drug Repurposed Hub。这项工作突出了深度学习方法通过发现结构独特的抗菌分子来扩展我们的抗生素库的实用性。
论文地址:https://www.cell.com/cell/fulltext/S0092-8674(20)30102-1?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0092867420301021%3Fshowall%3Dtrue
论文标题:基于半二分图模型和深度学习的药物-靶标相互作用预测
简介:识别药物-靶标相互作用是药物发现中的关键要素。在计算机上预测药物与靶标的相互作用可以加快识别药物与靶标蛋白之间未知相互作用的过程。文章提出了一种利用网络拓扑结构并识别相互作用和非相互作用的新药物-靶标相互作用预测框架,该框架从相互作用网络中学习潜在特征,证明了能够学习复杂的药物-靶标拓扑特征。
药物-靶标相互作用预测框架流程图。(a)通过药物-靶标相互作用,药物-药物相似性和蛋白质-蛋白质相似性来构建半二分图。(b)药物靶标正负对样本表示为捕获药物靶标对周围拓扑环境的子图。(c)在每个子图上应用图标记方法,以保留图顶点的顺序。(d)将最终的子图转换为邻接矩阵,并且每个矩阵的上三角代表要嵌入的特征,以训练分类器。(e)训练了一个深度神经网络,并将其用于预测新的药物靶标对。
论文地址:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-3518-6
论文标题:几何深度学习解密蛋白质分子表面的相互作用指纹
简介:蛋白质结构的分子表面显示出化学模式和几何特征,这些模式和特征可识别蛋白质与其他生物分子相互作用。文章提出了MaSIF(分子表面相互作用指纹),这是一个基于几何深度学习方法的概念框架,用于捕获对于特定生物分子相互作用非常重要的指纹。文章假设参与相似相互作用的蛋白质可能共享共同的指纹。该概念框架将导致对蛋白质功能和设计的理解得到改善。
论文地址:https://www.nature.com/articles/s41592-019-0666-6
论文标题:图卷积神经网络从化学结构预测药理活性
简介:许多治疗药物可以用简单的化学结构表示,这些化学结构在作用部位包含重要的亲和力决定因素。在这项研究中,仅从化合物的二维结构信息构建的GCN模型显示了针对ChEMBL数据库中127个不同目标的高度活性可预测性。文章还使用信息熵作为度量标准表明结构多样性对预测性能的影响较小。
论文地址:https://www.nature.com/articles/s41598-020-80113-7?from=from_parent_mindnote
COVID-19
2020年医学领域的另一个重要亮点当然是冠状病毒大流行,研究人员成功使用Graph ML方法检测Covid-19,并用药物重新定位的方法预测针对Covid-19药物的疗效。Google Graph Mining团队也在他们的年度报告中提及使用时空GNN建模COVID-19,想要了解更多可以访问https://gm-neurips-2020.github.io/master-deck.pdf。
论文标题:ResGNet-C:用于检测COVID-19的图卷积神经网络
简介:病毒核酸检测和胸部计算机断层扫描(CT)筛查是COVID-19临床诊断应用最广泛的两种技术。病毒核酸测试需要复杂的设备、长时间的测验与高假阴性率,而胸部CT图像报告灵敏度高但需要人为解释,非常耗时且不稳定。文章在ResGNet框架下开发了图卷积神经网络ResGNet-C,以将肺部CT图像自动分类为COVID-19引起的肺炎和正常的肺炎。
论文地址:https://www.sciencedirect.com/science/article/pii/S0925231220319184
论文标题:用于识别针对COVID-19的药物再利用的医学网络框架
简介:文章提出一种多模式方法,该方法融合了人工智能、网络扩散和网络邻近性的预测算法,对6340种药物的抗SARS-CoV-2预期疗效进行排名,表明不同预测方法之间的共识始终超过最佳单个算法的性能。实验发现多数药物依赖基于网络的行为,因此无法使用基于靶向对接的策略来识别。这一进展提供了一种方法论,可用于确定因新药开发成本和时长而无法满足的针对未来病原和其他疾病的再定位药物。
论文地址:https://arxiv.org/pdf/2004.07229.pdf