图自监督学习（Graph Self-supervised Learning）最新综述 Github代... / 开普饭

Self-Supervised Learning has become an exciting direction in AI community.

Jitendra Malik: 'Supervision is the opium of the AI researcher'
Alexei A. Efros: 'The AI revolution will not be supervised'
Yann LeCun: 'self-supervised learning is the cake, supervised learning is the icing on the cake, reinforcement learning is the cherry on the cake'

本综述来自西湖大学人工智能研究与创新中心（Center for AI Research and Innovation，Westlake University），对现有的图自监督学习技术进行了全面的回顾。实验室目前研究方向包括：图自监督与半监督学习，图结构优化，时序动态图，及其在生命科学等交叉领域的应用。欢迎优秀的同学申请实习访问，及优秀的博后加入我们。完整的综述请参照原文：

https://arxiv.org/abs/2105.07342

汇总了Github代码，之后会不定期持续更新图自监督学习相关的工作：

https://github.com/LirongWu/awesome-graph-self-supervised-learning

近些年来，图上的深度学习在各种任务上取得了显著的成功，而这种成功在很大程度上依赖于海量的、精心标注的数据。然而，精确的标注通常非常昂贵和耗时。为了解决这个问题，自监督学习（Self-supervised Learning，SSL）正在成为一种全新的范式，通过精心设计的代理任务来提取富含语义信息的知识，而不依赖人工标注的数据。在本综述中，我们扩展了最早出现在计算机视觉和自然语言处理领域的自监督学习，对现有的图自监督学习（Graph Self-supervised Learning，Graph SSL）技术进行了及时且全面的回顾。具体地，本文将现有的Graph SSL方法分为三类：对比式的、生成式的和预测式的。更重要的是，与其它许多只对已发表研究进行high-level summary的综述不同，本文在一个统一的框架内对现有的工作进行了详细的数学总结（尽量做到一个公式描述一个方法）。此外，为了促进方法论的发展和公平的评估比较，本文还总结了常用的数据集、评价指标、下游任务以及各种算法的开源实现。最后，本文讨论了图自监督学习的技术挑战和潜在的改进方向。

1. 背景介绍

近年来，图上的深度学习已经成为人工智能领域的一个热门研究课题，然而大多数工作都集中在有监督或半监督学习的设置下，即通过特定的下游任务和丰富的标记数据来训练模型，而这些数据往往是有限的、昂贵的和不可获取的。由于严重依赖标签的数量和质量，这些监督或半监督方法很难适用于现实世界，特别是那些需要专家知识进行注释的场景，如医学、气象学等。更重要的是，这些方法容易出现过拟合、泛化性差、鲁棒性弱等问题。

自监督学习（SSL）的最新进展 [18,19] 为减少对标签的过度依赖，实现在大量无标注数据上的训练提供了新的见解。自监督学习的主要目标是通过精心设计的代理任务，从丰富的无标签数据中学习可迁移的知识，然后将学到的知识迁移到具有特定监督信号的下游任务中。最近，自监督学习在计算机视觉（CV）和自然语言处理（NLP）领域的各项任务上都取得了令人惊喜的结果。用精心设计的代理任务进行自监督训练，有助于模型从丰富的无标签数据中学习更具有可泛化性的表征，从而在下游任务中获得更好的性能。受SSL在CV和NLP领域成功经验的启发，将SSL应用于图数据以充分利用图结构信息和丰富的无标记数据是一个重要而有前景的方向。然而，到目前为止，图上的SSL还没有得到充分的探索，许多重要的问题仍有待解决。

与图像和文本数据相比，SSL在图域的应用具有重要意义和巨大的潜在研究前景：

首先，除了节点特征和部分已知的标签，图数据包含了揭示节点连接性的图结构，可以设计大量的代理任务来同时捕捉节点间潜在的语义关系。
其次，现实世界的图通常是按照特定的规则形成的，例如，分子图中原子之间的连接受价键理论约束。因此，大量相关的领域知识可以作为先验被纳入到代理任务的设计中。
最后，图结构数据一般支持归纳学习（transductive learning），如节点分类任务，这意味着在训练过程中，训练、验证和测试的样本特征都是可见的，这使得设计更多与特征相关的代理任务成为可能。

然而，这并不以意味着现有的一些用于图像或者文本的自监督技术可以直接迁移到图域中，欧几里得数据和非欧几里得数据的内在差异使得设计适用于图的自监督技术仍然非常具有挑战：

首先，图像的拓扑结构是固定的网格，文本是简单的序列，而图则不限于这些刚性结构。
其次，与图像和文本中数据的独立同分布假设不同，图中的节点是相互关联的，而不是完全独立的。这启发我们通过考虑节点属性和图结构来设计合适的代理任务。
最后，由于自监督代理任务和下游任务的优化目标之间存在着差异，这种差异可能导致“负迁移”，将极大地损害模型的泛化性。因此，重新考虑代理任务的优化目标以使其更好地匹配下游任务的优化目标并使它们相互一致是至关重要的。

在本综述中，我们扩展了最早出现在计算机视觉和自然语言处理领域的SSL概念，对现有的图数据SSL技术进行了及时和全面的回顾。具体来说，我们将现有的图SSL方法分为三类：对比性的、生成性的和预测性的，如下图所示:

对比式方法：对不同的增广和产生的视图进行对比学习，将数据-数据对（inter-data）之间的共性和差异信息作为监督信号。
生成式方法：关注图数据内部（intra-data）的信息，一般基于特征/结构重构等代理任务，利用图本身的特征和结构作为监督信号。
预测式方法：通过一些简单的统计分析或专家知识self-generate伪标签，然后根据生成的伪标签设计基于预测的代理任务来处理数据-标签（data-label）关系。

接下来，我们从high-level上详细介绍这三种方法，并列举一些有代表性的方法作为例子，本综述的整体架构如下：

2. 训练策略

在深入介绍三种类型的图自监督技术之前，我们先介绍目前图SSL上常见的三种训练策略。考虑到编码器、代理任务和下游任务三者之间的关系，训练策略可以分为三种：

预训练和微调（Pre-training and Fine-tuning）
联合学习（Joint Learning）
无监督表征学习（Unsupervised Representation Learning (URL)

它们详细的工作流程如上图所示，接下来我们对各个训练策略分别详细介绍：

2.1 预训练和微调（Pre-training and Fine-tuning）

在预训练阶段，编码器在代理任务上被训练，然后预训练的参数被用来作为编码器的初始化。在微调阶段，预训练的编码器在特定下游任务的监督下与一个预测头一起进行微调。优化目标如下：

with initialization

其中和分别是下游任务和自监督代理任务的损失函数。

2.2 联合学习（Joint Learning）

在这个方案中，编码器与预测头在代理任务和下游任务的监督下联合训练。这种联合学习策略也可以被认为是一种多任务学习，或者将自监督代理任务视为下游任务的正则化。优化目标如下：

其中是控制和损失权重的一个超参数。

2.3 无监督表征学习（Unsupervised Representation Learning）

这个训练策略的第一阶段类似于预训练，然而在第二阶段，预训练的参数被固定，模型只在下游任务的监督下对frozen representations进行训练。优化目标如下：

with initialization

与其他策略相比，无监督表征学习更具挑战性，因为在预训练阶段没有来自下游任务的监督。

3. 对比式学习（Contrastive Learning）

介绍完三个常见的训练策略后，我们至此完成了对图自监督相关的概念，符号等背景知识的介绍，接下来我们将逐个介绍各种方法。由于近一年来Moco [18] 和SimCLR [19] 等算法大火，各种基于互信息最大化的对比学习方法层出不穷，对比式学习的自监督方法最为大家关注和熟悉，我们也将首先介绍这一类方法。在本综述中，我们从统一的角度回顾了现有的工作，并将它们统一到一个框架中。自监督对比式学习的三个主要模块是数据增广、代理任务设计和对比目标，现有工作的贡献基本上可以归纳为在这三个模块上的创新。

在实践中，我们一般通过各种的数据增广方式（甚至是它们的组合）为数据集中的每个实例生成多个视图。从同一实例中生成的两个视图通常被认为是一个正样本对，而从不同实例中生成的两个视图则被认为是一个负样本对。**对比学习的主要目标是最大化两个联合采样的正样本对的一致性，最小化两个独立采样的负样本对的一致性。**样本间的一致性通常通过互信息衡量。

考虑到一个给定的图，不同的增广变换可用于获得多个视图，定义如下：

其次，我们可以应用一组图编码器（可以是不同的或共享权重）为每个视图中生成对应的表征，如下：

对比学习的优化目标是使同一实例的两个视图的相互信息最大化，表述为

其中 , 由生成的表征，它们可以被视为正样本。与对比的负样本是由另一个图生成的表征，即。此外，我们有，它的具体取值在不同的方案设计中不同。是两个表征和之间的互信息。需要注意的是，根据不同的代理任务，可能不在同一尺度，可能是节点层次，子图层次，或者图层次的表征。

图数据的对比学习设计可以概括为三个主要模块：(1)数据增广策略；(2)代理任务；和 (3)对比目标函数。图编码器的设计不是图自监督学习的重点，更多的细节请参考相关综述 [15]。接下来，我们将依次介绍数据增广策略，代理任务设计，和常见的对比目标函数。

3.1 数据增广策略

近期计算机视觉领域的相关工作表明，基于对比学习的视觉表征学习的成功在很大程度上依赖于精心设计的数据增广策略，特别是某些类型的数据增广在提高性能方面起着非常重要的作用。然而，由于图数据固有的非欧几里得特性，很难将为图像设计的数据增广策略直接应用于GNN领域。在这里，我们把针对图数据的数据增广策略分为以下四类：基于特征的增广、基于结构的增广、基于采样的增广和自适应的增广。下图为四种增广策略的示意图：

3.1.1 基于特征的增广

给定一个输入图，基于特征的增广只对节点特征矩阵或边特征矩阵进行变换。我们以为例，变换如下：

Attribute Masking

Attribute Masking 随机掩码掉一小部分节点或者边特征，如下定义：

其中是一个掩码位置指示矩阵，矩阵通常由Bernoulli分布取样或手动分配。的不同方案会导致不同的增广策略。例如，表示常数掩码，表示用高斯噪声替换原始值，表示将高斯噪声添加到输入中。

Attribute Shuffling

Attribute Shuffling对节点特征矩阵的各行进行打乱。也就是说，变换后的图拥有与原图相同的节点组成，但它们位于图中的不同位置，因此收到不同的上下文信息，定义如下：

其中是一个包含从1到 N 数值的随机排列。

3.1.2 基于结构的增广

给定一个图，基于结构的增广只对邻接矩阵进行变换，如下所示

Edge Perturbation（边扰动）

边扰动过随机添加或删除一定比例的边来扰乱结构连接，定义如下

其中是一个扰动位置指示矩阵，如果节点和节点之间的连接将被扰动，则，否则 $\mathbf{L}{i,j}=\mathbf{L}{j,i}=0 $ 。

Node Insertion（节点插入）

节点插入向节点集中添加个节点，并在和之间添加一些边。对于结构增广，我们有。对于连接率，我们有

其中。

Edge Diffusion （边扩散）

边扩散在节点之间建立新的连接。常见的边扩散如Personalized PageRank，定义为：

3.1.3 基于采样的增广

给定一个输入图，基于采样的增广同时对邻接矩阵和特征矩阵进行变换，如下所示

其中，现有的方法通常采用五种策略来获得节点子集：均匀采样、自网络采样、随机游走采样、重要性采样和基于知识采样。

Uniform Sampling（Node Dropping）

均匀采样从中均匀地抽取给定数量的节点，并直接移除剩余的节点。

Ego-net Sampling

给定一个层的图编码器，每个节点表征的计算只取决于其 -hop的邻域。对于图中的每个节点，自网络采样对节点周围的 -hop邻域行采样，定义如下

其中是节点和之间的最短路径长度。Ego-nets采样本质上是广度优先搜索（BFS）采样的一个特殊版本。

Random Walk Sampling

随机游走采样从起始节点开始在图上进行随机游走。游走以与边权重成正比的概率迭代地前往其邻域。此外，在每一步以正概率返回到起始节点。最后，被访问的节点被纳入一个节点子中。

Importance Sampling [5]

对于一个给定的节点，重要性采样根据其相邻节点的重要性对子图进行采样。具体地，它计算出一个重要性评分矩阵，表示为

其中是超参数。对于一个给定的节点，子图采样器选择前个重要的邻居来构成一个子图，所选节点的索引表示为。

Knowledge Sampling [12]

基于知识的采样将领域知识纳入到子图采样中。例如，通过计算分子图中经常出现的、与生物信息学的子结构，并为它们建立库（或表），子图采样可以被定义为一个基于库的匹配问题。

3.1.4 自适应增广

自适应增广通常采用注意力分数或梯度来指导节点或边的选择。

Attention-based

基于注意力的方法通常为节点或边定义重要性分数，然后根据其重要性来数据。例如，GCA [13] 保持重要的结构和属性不变，而对不重要的边和特征扰动。具体来说，去除边和掩盖特征的概率应该与它们的重要性密切相关。给定一个节点中心性度量，它将边中心性定义为两个相邻节点中心性得分的平均，即。然后，边的重要性被定义为:

其中，是一个超参数，控制去除边的总体概率，和是的最大值和平均值，是一个截止概率。根据节点重要性进行采样与上面一样，这里不再重复。

Gradient-based

与GRACE [3] 中的简单的均匀边删除和插入不同，GROC [14] 在边梯度信息的指导下自适应地进行基于梯度的增广。具体来说，它首先对应用两个随机增广来获得两个视图（和的概率分别掩码节点特征），然后计算这两个视图间的对比损失。对于一个给定的节点，一个边移除候选集被定义为：

边插入候选集被定义为：

其中是一个节点批次。最后，我们反向传播损失，以获得和中每个边的梯度幅度值，然后删除了中具有最小边梯度值的子集，并在中插入了具有最大边梯度值的子集。

3.2 对比式学习：代理任务

对比学习的目的是最大化提高两个联合采样的正样本对的一致性。根据视图的定义，视图的尺度可能是局部的、上下文的或全局的，对应于图中的节点层次、子图层次或图层次信息。因此，对比性学习可能会在相同或不同的尺度上对两个视图进行对比，这导致了两个类别：（1）同尺度对比；（2）跨尺度的对比。同尺度对比中的两个视图，无论是正样本对还是负样本对，都处于同一尺度，而跨尺度对比中的两个视图具有不同的尺度，如节点-子图或节点-图对比。下图中给出了两种类别的对比方式的示意图：

3.2.1 同尺度对比

同尺度对比可以被进一步细化为3类：local-local contrasting, context-context contrasting, and global-global contrasting，我们接下来分别以一个代表性的算法来介绍它们。

Global-Global contrasting

GraphCL [1] 是一种典型的Global-Global对比方法。给定一个图，它首先应用一系列数据增广，生成一个增广图，然后预测它们是否来自同一个图。具体地，一个图编码器和函数被用于获取图层次表征和，学习目标被定义为：

其中与对比的负样本是。Contrastive Self-supervised Learning（CSSL）[21] 遵循一个与GraphGL非常相似（几乎相同）的框架，不同之处仅在于数据增广方式。除了丢弃节点外，它还将节点插入作为一种重要的增广策略。具体来说，它随机选择一个强连接的子图，删除中的所有边，增加一个新的节点，并在节点和中的每个节点之间增加一条边。

Context-Context contrasting

Graph Contrastive Coding (GCC) [2]是一个图自监督的预训练框架，它可以捕捉到多个图的通用图拓扑特性。GCC首先对每个图的通过随机游走采样多个子图，并将所有子图放入一个memory bank 。然后，query graph 和key graphs 分别由两个图编码器和进行编码，得到低维表征和。如果和是从同一个图中采样的，那么它们被认为是正样本对，否则就是负样本对。对于query graph ，其中是其采样的图的索引。最后，学习目标被定义为：

其中是一个指标函数，用于确定memory bank中第个key graph 和query graph 是否取自同一个图。的参数按照基于动量的方式更新：

Local-Local contrasting

GRACE [3]专注于节点层次的对比学习。给定图，它首先生成两个增广的视图和。然后，它应用图编码器生成节点嵌入和。最后，每个样本对的成对损失被定义为：

其中被定义为：

其中是intra-view的负样本对，是inter-view的负样本对。最后，要最大化的总体优化目标被定义为：

GCA [13] 和GROC [14] 采用与GRACE相同的框架和目标，但拥有更加灵活和自适应的数据增广策略。

3.2.2 跨尺度对比

跨尺度对比可以被进一步细化为3类：local-context contrasting, local-global contrasting, and context-global contrasting，我们接下来分别以一个代表性的算法来介绍它们。

Local-Global Contrasting

Deep Graph Infomax (DGI) [4] 被提出用于执行Local-Global Contrasting。首先，它应用一个增广变换来获得一个负样本，然后将两个图分别通过两个图编码器和得到嵌入矩阵和。此外，DGI应用一个函数来获得图层次的表征。最后，学习目标定义如下：

其中是节点的节点嵌入。与对比的负样本是。

Local-Context contrasting

SUBG-CON [5]通过利用中心（锚）节点和其周围子图之间的强关联性来捕捉上下文结构信息。给定一个图，SUBG-CON首先从中选取一个锚节点集，然后通过重要性采样策略得到其上下文子图。然后应用共享图编码器和获得节点嵌入和图层次表征其中。最后，学习目标被定义为：

其中是节点嵌入矩阵中锚节点的表征嵌入。与对比的负样本是。

Context-Global contrasting

InfoGraph [6]旨在获得图层次的表征嵌入。给定一个图，它首先应用数据增广，得到。然后应用共享的层图编码器来获得每层的节点嵌入矩阵和。然后，它把从每一层学到的表征连接起来，得到和。其中是节点在节点嵌入矩阵中的嵌入。此外，一个函数被用来获得图层次的表征。最后，学习目标被定义如下：

其中与对比的负样本是。

3.3 对比目标函数

对比学习将两个表征和视为随机变量，并将它们之间的相互信息最大化，公式如下：

为了更高效地估计对比学习中的相互信息，三种相互信息的下界形式已经被推导出，可以通过最大化互信息的下限来间接地最大化相互信息。

Donsker-Varadhan估计器

Donsker-Varadhan估计器是KL divergence的一种表示形式，是互信息的一种下界，定义为

其中表示两个表征的联合分布，而表示两个表征的边缘分布之积。是一个判别器，它将两个输入映射到一个一致性分数。一般来说，判别器可以选择应用额外的预测头将映射到，然后再计算一致分数，其中可以是线性映射、非线性映射（例如MLP），甚至是一个非参数的恒等映射（）。判别器可以采取各种形式，例如标准内积 , 带有退火温度参数的内积，余弦相似度等。

Jensen-Shannon估计器

用JS divergence代替KL divergence，我们推导出另一个Jensen-Shannon估计器，可以更有效地估计和优化相互信息。Jensen-Shannon估计器被定义为：

InfoNCE估计器

InfoNCE是最受欢迎的互信息下限估计器之一，其被定义为

其中由N个随机变量组成，这些随机变量是从一个相同的独立分布中采样的。对于图分类问题，InfoNCE实际是在大小为N+1的批次上计算，上式可以被重写为（丢掉log N）：

其中是来自同一个图的正样本对；而和是由图和图分别得到的负样本对。

Triplet Margin Loss

上述三个互信息估计器及其变体可以估计相互信息的下界。Triplet margin loss 则是一个非界限的相互信估计器，它对互信息没有可证明的下界，而且优化它并不能保证互信息的最大化。Triplet margin loss 被定义为：

其中是间隔值。

4. 生成式学习（Generative Learning）

与自监督对比式学习相比，生成式学习通常基于生成模型，将图数据本身的丰富信息作为一种自然的监督信号。在生成式方法中，预测头通常被称为图解码器，用来执行图重建的代理任务。按照重建的方式分类，我们将生成式方法总结为两类：（1）图自编码，以once-for-all的方式进行图重建；（2）图自回归，迭代地进行图重建。图自编码方法侧重于重建给定图数据的某些部分，如被掩码的特征或被破坏的邻接矩阵；而自回归方法则强调，给定部分图信息如属性或结构，然后以迭代的方式重建其余部分。

4.1 Graph Autoencoding

Node Attribute and Embedding Denoising

Node Attribute and Embedding Denoising [7] 是一个基于AE架构的代理任务，它通过向节点特征添加噪声，以获得一个带噪的节点特征矩阵，然后强迫模型重建出干净的节点特征，其优化目标被定义为：

同样地，我们也可以对嵌入特征矩阵加噪声，，然后从中重建出干净的节点特征矩阵，定义为：

实际上加噪只是破坏图像的一种手段，此外还有模糊、变灰等。受此启发，理论上可以使用任意函数来获得被破坏的特征，然后强迫模型进行重建。对于节点特征去噪，我们得到它的一个特殊的变体。基于任意函数，更正式的定义如下：

4.2 Graph Autoregressive

GPT-GNN

近年来，GPT [17] 的思想也被应用到了 GNN 中。例如，GPT-GNN [8] 提出了一个自回归框架对给定的图迭代地执行节点和边重建。给定一个图，在每次迭代中，GPT-GNN 生成一个新的节点及其连接边来获得更新图，并优化节点和边生成在当前迭代的似然，其优化目标定义为：

其中是一个变量，用来表示在迭代中内所有已知边的索引。因此，表示迭代中已知的边，而表示迭代中的掩码边（待生成边）。最后，图生成过程被分解为节点特征生成和边生成步骤。在实践中，GPT-GNN迭代地执行节点和边生成。

5. 预测式学习（Predictive Learning）

对比式学习方法处理的是数据间（inter-data）的信息，生成式方法关注的是数据内（intra-data）的信息，而预测式方法的目的是将数据中的信息标签（self-generate informative labels）作为监督信号来处理数据-标签（data-label）的关系。按照标签的获取方式分类，我们将预测式方法总结为四类：(1) 节点属性预测。节点的属性，如节点度，被预先计算并作为自监督的标签来执行预测任务。(2) 基于上下文的预测。图中的局部或全局上下文信息可以被提取出来作为标签来辅助自监督学习，例如，通过预测节点之间的最短路径长度，模型可以捕捉到长距离的依赖关系，这有利于如链接预测等下游任务。(3) 自训练。用前一阶段的预测或聚类得到的伪标签进行学习，然后对伪标签进行更新。(4) 基于领域知识的预测。提前使用领域知识或专门工具来分析图数据（如生物或化学数据）以获得信息标签。如下是这四种预测式方法的示意图：

5.1 节点属性预测

Node-Property Prediction [9]

进行预测式学习的一个有效方法是利用图中隐含的数值属性，如常用的节点属性——节点度和局部聚类系数。节点属性预测任务首先定义了一个映射从图中为每个节点提取统计标签。这个代理任务的学习目标被定义为：

其中是预测的标签矩阵，是节点的预测标签。由于节点属性不同，映射函数可以有不同的设计。例如，如果我们用节点度作为自监督的局部节点属性，定义如下：

对于局部聚类系数，我们有：

其中，局部聚类系数是描述图中节点聚集程度的局部系数。除了上述两个属性，任何其他的节点属性（甚至是它们的组合）都可以作为统计标签来执行节点属性预测的代理任务。

5.2 基于上下文的预测

PairwiseDistance

PairwiseDistance [9] 是一种典型的基于上下文的代理任务，它旨在通过预测不同节点对之间的最短路径长度，引导模型保留全局拓扑信息。具体地，它首先从所有节点对中随机抽取一定数量的节点对，并计算任意节点对之间的最短路径长度。此外，它将最短路径长度分为四类：和，分别对应和。最后，优化目标可以被形式化为一个多分类问题，如下所示：

其中表示交叉熵损失，线性映射地将输入到一个的实数。与 [15] 的代理任务相比，PairwiseDistance截断了超过4的最短路径，主要是为了避免过大的计算负担，并防止非常嘈杂的超远距离点对主导优化进程。

5.3 自训练

Cluster Preserving [10]

现实世界图的一个重要特征是聚类结构，所以我们可以把簇结构保持作为是一个自监督的代理任务。首先应用无监督聚类算法将图中的节点分成不重叠的簇，然后通过计算每个簇的簇原型。映射函数用于估计节点与簇原型之间的相似度，例如，节点属于簇的概率被定义如下：

最后，这个代理任务的优化目标被定义为：

5.4 基于领域知识的预测

Graph-level Motif Prediction

Motif是分子图数据图数据中反复出现的子图。分子中的一类重要Motif是功能组，它编码了分子丰富的领域知识，可以很容易地被专业软件（如RDCit）检测到。假设我们考虑分子图可能存在的种Motif，其集合记为。对一个特定分子图，Graph-level Motif Prediction [11] 检测每个Motif是否出现在中，然后将其作为标签，如果出现在中，第个元素将被设置为1，否则为0。从形式上看，Motif Prediction任务的学习目标可以被表述为一个多标签分类问题，如下所示：

其中表示二元交叉熵损失。

6. 实现总结

下表列出了本综述审阅的各个方法，适用图的属性、代理任务类型、数据增广策略、目标函数、训练策略和出版年份。

下表展示了本综述审阅的工作的具体实现细节，如下游任务的（节点/链接/图）类型、特定任务的评价指标以及所用的数据集。

常用数据集的统计结果如下表，包括图类别、图数目、每张图的节点数、每张图的边数、节点属性的维度、类别数和采用该数据的论文。常用的图自监督学习任务的数据集可以分为五类：引文网络、社会网络、蛋白质网络、分子图和其他。

代码开源有利于对深度学习社区的发展。下表中列出了所调研工作的开源代码总结，我们提供了其开源代码的超链接，那些没有找到开源代码的作品用 'N.A '表示。这些方法大多基于Pytorch或Tensorflow库实现。此外，我们还创建了一个GitHub资源库：

https://github.com/LirongWu/awesome-graph-self-supervised-learning

来总结图自监督学习技术的最新进展，随着更多论文及其代码的出现，该资源库将被不定期持续更新

7. 讨论：技术挑战与未来研究方向

尽管最近在CV和NLP领域取得了巨大成功，但将SSL应用于图数据仍然非常具有挑战性。在这一节中，我们分析了现有的图形SSL的技术挑战，并为未来的工作指出了一些有希望的方向。

复杂类型图的代理任务设计

目前大多数图SSL的工作都集中在属性图上，而对其他更复杂、更有挑战性的图类型，如时空和异构图，进行探索的工作还很少。目前大多数的代理任务只利用节点或边的特征，这限制了它们利用挖掘图中其它丰富信息的能力，如时空图中的时序信息和异构图形中的关系信息。一个有希望的方向是设计特定于图类型的代理任务，根据图的类型自适应挑选最合适的任务。

缺乏理论基础

尽管图SSL在各种任务上取得了巨大的成功，但它们大多借鉴了SSL在CV和NLP领域的成功经验。换句话说，大多数现有的图SSL方法都是凭直觉设计的，它们的性能提升是通过经验实验来评估的。由于设计背后缺乏足够的理论基础，导致了潜在性能瓶颈和可解释性差的问题。因此，从图论的角度为图SSL建立一个坚实的理论基础，尽量缩小理论基础和经验设计之间的差距也是一个有前途的未来方向。

增广策略研究不足

最近在视觉表征学习领域的进展主要归功于各种数据增广策略，如调整大小、旋转、着色等 [18,19]。然而，由于图数据固有的非欧几里得性质，很难将现有的基于CNN的数据增广直接应用于图数据。此外，目前大多数图上的数据增广策略仅限于添加/删除节点和边或它们的组合，以此实现所谓的SOTA。为了进一步提高图上SSL的性能，设计更有效的增广策略或为特定的下游任务自适应地进行增广是一个有前途的方向。此外，从增广的数据中选择高质量的负样本也是一个关键问题。

缺乏可解释性

虽然现有的图SSL方法在各种下游任务上取得了优异的成绩，但我们仍然不知道自监督任务到底学到了什么？特征模式、重要结构还是特征-结构关系？这种学习是显性的还是隐性的？是否有可能在输入数据上找到可解释的对应关系？这些都是理解和解释模型行为的重要问题，但在目前的图SSL工作中却缺失了。因此，我们需要探索图SSL的可解释性，并对模型行为进行深入分析，以提高现有方法在涉及安全或隐私的下游任务中的通用性和稳健性。

预训练与下游任务的分歧

用自监督任务进行预训练，然后将预训练的模型用于特定的下游任务，通过微调或冻结权重，是图SSL中常见的训练策略。然而，我们应该如何将预训练好的知识转移到下游任务中去呢？尽管在CV和NLP领域已经提出了大量的策略来解决这个问题 [20]，但由于图数据固有的非欧氏结构，它们很难直接应用于GNN领域。因此，如何设计针对图的技术，使预训练和下游任务之间的优化分歧最小化，是一个重要问题。

Reference

[1] Y. You, T. Chen, Y. Sui, T. Chen, Z. Wang, and Y. Shen, “Graph contrastive learning with augmentations,”Advances in Neural Information Processing Systems, vol. 33, 2020.

[2] J. Qiu, Q. Chen, Y. Dong, J. Zhang, H. Yang, M. Ding, K. Wang, and J. Tang, “Gcc: Graph contrastive coding for graph neural network pre-training,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. 1150–1160.

[3] S. Thakoor, C. Tallec, M. G. Azar, R. Munos, P. Veliˇckovi´c, and M. Valko “Bootstrapped representation learning on graphs,” arXiv preprint arXiv:2102.06514, 2021.

[4] P. Velickovic, W. Fedus, W. L. Hamilton, P. Li` o, Y. Bengio, and R. D. Hjelm, “Deep graph infomax.” in ICLR (Poster), 2019.

[5] Y. Jiao, Y. Xiong, J. Zhang, Y. Zhang, T. Zhang, and Y. Zhu, “Sub-graph contrast for scalable selfsupervised graph representation learning,” arXiv preprint arXiv:2009.10273, 2020.

[6] F.-Y. Sun, J. Hoffmann, V. Verma, and J. Tang, “Infograph: Unsupervised and semi-supervised graphlevel representation learning via mutual information maximization,” arXiv preprint arXiv:1908.01000, 2019.

[7] F. Manessi and A. Rozza, “Graph-based neural network models with multiple self-supervised auxiliary tasks,” arXiv preprint arXiv:2011.07267, 2020.

[8] Z. Hu, Y. Dong, K. Wang, K.-W. Chang, and Y. Sun,“Gpt-gnn: Generative pre-training of graph neural networks,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. 1857–1867.

[9] W. Jin, T. Derr, H. Liu, Y. Wang, S. Wang, Z. Liu, and J. Tang, “Self-supervised learning on graphs: Deep insights and new direction,” arXiv preprint arXiv:2006.10141, 2020.

[10] Z. Hu, C. Fan, T. Chen, K.-W. Chang, and Y. Sun, “Pretraining graph neural networks for generic structural feature extraction,” arXiv preprint arXiv:1905.13728, 2019.

[11] Y. Rong, Y. Bian, T. Xu, W. Xie, Y. Wei, W. Huang, and J. Huang, “Self-supervised graph transformer on large-scale molecular data,” Advances in Neural Information Processing Systems, vol. 33, 2020.

[12] S. Zhang, Z. Hu, A. Subramonian, and Y. Sun, “Motifdriven contrastive learning of graph representations,”arXiv preprint arXiv:2012.12533, 2020.

[13] Y. Zhu, Y. Xu, F. Yu, Q. Liu, S. Wu, and L. Wang,“Graph contrastive learning with adaptive augmentation,”arXiv preprint arXiv:2010.14945, 2020.

[14] N. Jovanovi´c, Z. Meng, L. Faber, and R. Wattenhofer,“Towards robust graph contrastive learning,” arXiv preprint arXiv:2102.13085, 2021.

[15] Z. Peng, Y. Dong, M. Luo, X.-M. Wu, and Q. Zheng, “Self-supervised graph representation learning via global context prediction,” arXiv preprint arXiv:2003.01604, 2020.

[16] Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, and S. Y. Philip, “A comprehensive survey on graph neural networks,” IEEE transactions on neural networks and learning systems, 2020.

[17] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever, “Language models are unsupervised multitask learners,” OpenAI blog, vol. 1, no. 8, p. 9, 2019.

[18] K. He, H. Fan, Y.Wu, S. Xie, and R. Girshick, “Momentum contrast for unsupervised visual representation learning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 9729–9738.

[19] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in International conference on machine learning. PMLR, 2020, pp. 1597–1607.

[20] F. Zhuang, Z. Qi, K. Duan, D. Xi, Y. Zhu, H. Zhu, H. Xiong, and Q. He, “A comprehensive survey on transfer learning,” Proceedings of the IEEE, vol. 109, no. 1, pp. 43–76, 2020.

[21] J. Zeng and P. Xie, “Contrastive self-supervised learning for graph classification,” arXiv preprint arXiv:2009.05923, 2020.

图自监督学习（Graph Self-supervised Learning）最新综述 Github代...

1. 背景介绍

2. 训练策略

2.1 预训练和微调（Pre-training and Fine-tuning）

2.2 联合学习（Joint Learning）

2.3 无监督表征学习（Unsupervised Representation Learning）

3. 对比式学习（Contrastive Learning）

3.1 数据增广策略

3.1.1 基于特征的增广

3.1.2 基于结构的增广

3.1.3 基于采样的增广

3.1.4 自适应增广

3.2 对比式学习：代理任务

3.2.1 同尺度对比

Global-Global contrasting

Context-Context contrasting

Local-Local contrasting

Local-Global Contrasting

Local-Context contrasting

Context-Global contrasting

Donsker-Varadhan估计器

Jensen-Shannon估计器

InfoNCE估计器

Triplet Margin Loss