清华团队综述全面解读图神经网络理论方法与应用

2024-03-02 21:11:13

撰文：吴婷婷

近年来，由于图的强大表达能力，利用机器学习分析图的研究越来越受到关注。图（graph）作为一种数据结构，由节点（node）和边（edge）组成，如果赋予节点和边不同的含义，那么看似简单的图就可以组成非常庞大的信息。例如，若图中的节点代表商品，边表示购买顺序，那么连起来就代表了一个用户的购物网络。

图 | 一个最简单的图包含节点和边（箭头表示关系方向）

如今，在图领域机器学习中，图神经网络（Graph Neural Network,简称 GNN）又成为新的研究热点。由于 GNN 对图节点之间依赖关系进行建模的强大能力，它在社交网络、知识图、推荐系统甚至生命科学等各个领域都得到了越来越广泛的应用。

近日，清华大学研究团队就针对 GNN 的最新发展，于 AI OPEN 发表了题为 “Graph neural networks: A review of methods and applications” 的研究综述。文中详细总结了构建 GNN 模型的 “四步” 框架并作理论分析，展示了 GNN 在各学科中常见的应用，并最后提出四个开放性问题，表明了图神经网络的主要挑战和未来研究方向。

四步构建 GNN

GNN 是基于图的深度学习方法，作为神经模型的一种，它通过图节点之间的消息传递来捕获图的依赖性。GNN 的设计流程通常包含四个步骤：找出相应的图结构、指定图类型与规模、设计损失函数、使用计算模块构建模型。

图 | GNN 的设计流程图（来源：论文）

在此次的研究中，作者就详细描述这四个步骤的操作框架。

（1）找到与目标相适应的图结构：通常可以分为结构化场景和非结构化场景。在结构化场景中，图结构在应用中比较明确，例如在分子、物理系统、知识图等上的应用。而在非结构化场景中，图是隐含的，因此首先要从任务中构建图，例如为文本构建一个完全连接的 “词” 图或为图像构建一个场景图。

（2）指定图类型和规模：在获得图形后，需要找出图形类型及其规模。图通常分为有向 / 无向图、同构 / 异构图（同构图中的节点和边具有相同的类型，而异构图中的节点和边具有不同的类型）、静态 / 动态图（当输入特征或图的拓扑随时间变化时，该图被视为动态图）。

图 | 图类型与规模及其详细分类（来源：论文）

（3）设计损失函数：对于图学习任务，通常有节点级任务、边级任务、图级任务三种。而从训练设置的角度来看，图学习任务分为监督设置（为训练提供标记数据）、半监督设置（给出少量标记节点和大量未标记节点用于训练）、以及无监督设置（仅提供未标记的数据）。

（4）使用计算模块构建模型：常用的计算模块有传播模块、采样模块、池化模块。传播模块用于在节点之间传播信息，以便聚合信息可以捕获特征和拓扑信息。当图很大时，通常需要采样模块对图进行传播。如果需要高级子图或图的表示，则需要池化模块从节点中提取信息。

图 | 三种计算模块及其详细操作（来源：论文）

GNN 的实际应用

接下来，作者们还对当前 GNN 的热点应用一一进行阐释，并根据结构化场景和非结构化场景对其进行分类。

结构化场景 GNN 应用包括：图挖掘（如图匹配、图分类、图聚类）、物理（即模拟现实世界的物理系统，如电磁系统、机器人系统等）、化学和生物学（如分子指纹、化学反应预测、生物工程等）、知识图谱（knowledge graph，表示现实世界实体的集合以及实体对之间的关系事实，例如问答、信息检索和知识引导生成）、生成模型、组合优化、交通网络（例如预测交通状态）、推荐系统（如社交网络自动推荐功能）、其他应用（如预测股票未来趋势、预测市场指数走势、优化路由性能、在文本生成任务的抽象含义表示等）。

非结构化场景 GNN 应用则主要包括 图像和文本上的任务，如机器视觉推理、语义分割、文本分类、神经机器翻译、关系抽取、事件验证、阅读理解等等。

图 | GNN 应用场景（来源：论文）

挑战与未来发展

尽管 GNN 在不同领域取得了巨大成功，但值得注意的是，GNN 模型还不足以为大多图任务提供令人满意的解决方案。于是，研究人员通过综述已有研究，总结了以下四个未解决的问题：

稳健性：作为一种基于神经网络的模型，GNN 也很容易受到对抗性攻击。而且与仅关注特征的对图像或文本的对抗性攻击相比，对图的攻击进一步考虑了结构信息。

可解释性：可解释性也是神经模型的一个重要研究方向，不过目前 GNN 如同黑箱，仍缺乏解释。因此，将 GNN 模型应用于具有可解释性的实际应用非常重要。

图预训练：基于神经网络的模型需要大量的标记数据，但是获得大量人工标记的数据成本很高。因此，用自监督方法来指导 GNN 模型从未标记数据中学习从而进行预训练无疑是一种创新，但该领域仍有许多开放性问题需要研究、。

复杂的图结构：图结构在现实生活的应用中灵活又复杂，而且随着互联网上社交网络的快速发展，肯定会出现更多的问题、挑战和应用场景，需要更强大的模型。

关于 AI OPEN

AI OPEN 于 2020 年 3 月创刊，专注于分享有关人工智能（AI）理论及其应用的可行知识和前瞻性观点。期刊主编为智源研究院学术副院长、清华大学计算机系唐杰教授。

网址：

https://www.sciencedirect.com/journal/ai-open

论文链接：

https://www.sciencedirect.com/science/article/pii/S2666651021000012#!

AIOpen 预训练专刊征稿说明

The release of ELMo, BERT and GPT in 2018 indicated the success of pre-trained language models (PLMs), and was followed by a great breakthrough in natural language understanding and generation. Many works have been done to explore more efficient and effective architectures for pre-training; for example, methods to improve pre-trained language models with cross-modal data, cross-lingual data, and structured knowledge, etc., or to innovatively apply PLMs in various NLP-related tasks.

This special issue is devoted to gathering and presenting cutting-edge reviews, research and applications of PLMs, providing a platform for researchers to share their recent observations and achievements in this active field.

Topics Covered:

Novel architectures and algorithms of PLMs

*Generative PLMs

* Fine-tuning and adaptation of PLMs

* Multi-tasking and continual learning of PLMs

* Knowledge-guided PLMs

* Cross-lingual or multi-lingual PLMs

* Cross-modal PLMs

* Knowledge distillation and model compression of PLMs

* Analysis and probing of PLMs

* Applications of PLMs in various areas, such as information retrieval, social computation, and recommendation

Important Deadlines:

* Submission deadline: 31 August 2021

Submission Instructions:

Papers submitted to this journal for possible publication must be original and must not be under consideration for publication in any other journals. Extended work must have a significant number of "new and original" ideas/contributions along with more than 30% "brand new" material.

Please read the Guide for Authors (http://www.keaipublishing.com/en/journals/ai-open/guide-for-authors/) before submitting. All articles should be submitted online (https://www.editorialmanager.com/aiopen/default.aspx); please select SI: Pre-Trained Language Models on submission.

Guest Editors:

* Dr. Zhiyuan Liu, Tsinghua University, China. Email: liuzy@tsinghua.edu.cn

* Dr. Xipeng Qiu, Fudan University, China. Email: xpqiu@fudan.edu.cn

* Dr. Jie Tang, Tsinghua University, China. Email: jietang@tsinghua.edu.cn

万字综述，GNN在NLP中的应用，建议收藏慢慢看

来自:图与推荐今天为大家解读的是由京东硅谷研发中心首席科学家吴凌飞博士等研究者最新发表的GNN for NLP综述,几乎覆盖了围绕NLP任务的所有GNN相关技术,是迄今为止GNN for NLP领域 ...
AAAI2021论文: 时空Kriging的归纳式图神经网络

AAAI2021论文: 时空Kriging的归纳式图神经网络
AAAI 2021 |图模型相关工作——数据扩充；近似梯度下降；解决灾难性遗忘问题

点击上方蓝字关注我们本文介绍三篇AAAI2021最新的研究工作,下面的三篇论文均与模型的设计相关,具体的任务涉及节点分类和图分类. Data Augmentation for Graph Neur ...
性能超越图神经网络，将标签传递和简单模型结合实现SOTA

图神经网络(GNNs)是图学习中一种主流的技术.然而,对于GNN为什么在实际使用中很成功以及它们是否是优异性能所必需的技术,了解相对较少. 本文展示了许多标准的传导节点网络的分类基准结果,作者通过将忽 ...
中科院计算所沈华伟：图卷积神经网络的思想起源

智源社区 & AI科技评论作者 | 周寅张皓小到分子相互作用,物质结构,大至气候变化,星系模型,很多自然界和社会生活中的现象都能用图结构描述.而如何将神经网络应用到图网络中进行计算,在几年 ...
NeurIPS2020 | 图信息Bottleneck打造图最优表示->避免过拟合，并具备稳健性

本文属性看完一遍不知道在说什么系列,也属于先收藏后续重复读系列. 对于图结构数据而言,什么是「优」的表示?斯坦福研究者对此进行了重新思考,并提出学习稳健图表示的信息论原则--图信息瓶颈 (GIB).研 ...
'全能选手'召回表征算法实践

编辑整理:许建军出品平台:DataFunTalk 导读:本文主要分享 '全能选手' 召回表征算法实践.首先简单介绍下业务背景: 网易严选人工智能部,主要有三个方向:NLP.搜索推荐.供应链,我们主要 ...
「NLP」如何全面深度学习图神经网络理论与实践，有三AI NLP负责人带学计划出炉

图神经网络(GNN)很重要,因为图很重要.现实世界中,万物相互关联,构成一个个网络,这些网络通常通过图来表示.那么如何理解和表征这些复杂的图网络,是理解和利用它的基础. 随着深度学习的发展,神经网络展 ...
如何解决神经机器翻译三大关键性问题？清华团队发表NMT最新技术综述

如今,计算机技术渗透人们生活的方方面面,而要说对我们工作学习帮助极大的,机器翻译(machine translation)必须榜上有名. 近年来随着计算机技术的不断提高.AI 系统的日益精进,机器翻译 ...
一键即运行！清华团队推出图深度学习工具包CogDL v0.1

一行代码命令可以做什么? "一行命令可以实现'一条龙'运行实验." 访问 github.com/THUDM/cogdl 一键体验! 近年来,结构化数据的表示学习备受业界关注与热捧, ...
The Crop Journal | 澳大利亚马武军团队综述小麦叶片衰老的基因调控网络

▼ 衰老是植物在长期进化和自然选择过程中形成的一种不可避免的生物学现象,也是植物生命科学研究的核心问题之一.叶片衰老是叶片发育的最终阶段,是程序性细胞死亡(PCD)的一种表现形式.衰老过程中叶片同化 ...
The Crop Journal | 孙传清团队综述水稻驯化的分子遗传机制

▼ 将野生植物驯化为人赖以生存的栽培作物是人类历史上最伟大的创举之一,对人类文明的发展起到至关重要的作用.揭示作物驯化过程中一些重要性状发生改变的分子机制不仅有助我们认识从野生植物到栽培作物的演化规律 ...
The Crop Journal | 南京农业大学徐国华团队综述水稻中氨基酸的功能、转运和调控作用 ...

▼ 氨基酸是构成蛋白质的主要骨架,其含量和组成是决定稻米品质的重要因素.氨基酸是植物根系吸收氮素的形态之一,也是氮素在植物体内长距离运输及再分配的主要形态,其吸收和转运均依赖于氨基酸转运蛋白.尽管氨基 ...
The Crop Journal | 徐建龙和周美学研究团队综述水稻耐盐性分子机制

▼ 水稻(Oryza sativa L.)是最重要的主粮作物之一,同时也是单子叶模式植物.盐胁迫是仅次于干旱的第二大非生物逆境,全世界盐渍土面积约10亿公顷.目前,粮食总产仅靠单产突破来保障难度越来越 ...
综述 | 作者解读：粪菌移植治疗癌症的现状与展望（天津医科大学）

本文由本文由第一作者陈丹凤编译原创微文,欢迎转发转载. 导读人类肠道微生物群落是一个大约由上千种细菌组成的丰富繁杂的生态系统.肠道菌群与宿主互利共生,在多系统发挥着至关重要的作用.目前许多研究表明 ...
Nature子刊+PNAS：华中科大团队和清华团队发现miRNAs调控记忆和认知的新机制

阿尔兹海默症(Alzheimer's Disease,AD)是目前世界上最常见的神经退行性疾病之一,其最典型临床表现是进行性认知功能减退,这种认知异常在还未有典型的病理特征(淀粉样斑块和神经纤维缠结) ...

清华团队综述全面解读图神经网络理论方法与应用

相关推荐