图自监督学习(Graph Self-supervised Learning)最新综述 Github代...
Self-Supervised Learning has become an exciting direction in AI community.
Jitendra Malik: 'Supervision is the opium of the AI researcher' Alexei A. Efros: 'The AI revolution will not be supervised' Yann LeCun: 'self-supervised learning is the cake, supervised learning is the icing on the cake, reinforcement learning is the cherry on the cake'
本综述来自西湖大学人工智能研究与创新中心(Center for AI Research and Innovation,Westlake University),对现有的图自监督学习技术进行了全面的回顾。实验室目前研究方向包括:图自监督与半监督学习,图结构优化,时序动态图,及其在生命科学等交叉领域的应用。欢迎优秀的同学申请实习访问,及优秀的博后加入我们。完整的综述请参照原文:
https://arxiv.org/abs/2105.07342
汇总了Github代码,之后会不定期持续更新图自监督学习相关的工作:
https://github.com/LirongWu/awesome-graph-self-supervised-learning
近些年来,图上的深度学习在各种任务上取得了显著的成功,而这种成功在很大程度上依赖于海量的、精心标注的数据。然而,精确的标注通常非常昂贵和耗时。为了解决这个问题,自监督学习(Self-supervised Learning,SSL)正在成为一种全新的范式,通过精心设计的代理任务来提取富含语义信息的知识,而不依赖人工标注的数据。在本综述中,我们扩展了最早出现在计算机视觉和自然语言处理领域的自监督学习,对现有的图自监督学习(Graph Self-supervised Learning,Graph SSL)技术进行了及时且全面的回顾。具体地,本文将现有的Graph SSL方法分为三类:对比式的、生成式的和预测式的。更重要的是,与其它许多只对已发表研究进行high-level summary的综述不同,本文在一个统一的框架内对现有的工作进行了详细的数学总结(尽量做到一个公式描述一个方法)。此外,为了促进方法论的发展和公平的评估比较,本文还总结了常用的数据集、评价指标、下游任务以及各种算法的开源实现。最后,本文讨论了图自监督学习的技术挑战和潜在的改进方向。
1. 背景介绍
近年来,图上的深度学习已经成为人工智能领域的一个热门研究课题,然而大多数工作都集中在有监督或半监督学习的设置下,即通过特定的下游任务和丰富的标记数据来训练模型,而这些数据往往是有限的、昂贵的和不可获取的。由于严重依赖标签的数量和质量,这些监督或半监督方法很难适用于现实世界,特别是那些需要专家知识进行注释的场景,如医学、气象学等。更重要的是,这些方法容易出现过拟合、泛化性差、鲁棒性弱等问题。
自监督学习(SSL)的最新进展 [18,19] 为减少对标签的过度依赖,实现在大量无标注数据上的训练提供了新的见解。自监督学习的主要目标是通过精心设计的代理任务,从丰富的无标签数据中学习可迁移的知识,然后将学到的知识迁移到具有特定监督信号的下游任务中。最近,自监督学习在计算机视觉(CV)和自然语言处理(NLP) 领域的各项任务上都取得了令人惊喜的结果。用精心设计的代理任务进行自监督训练,有助于模型从丰富的无标签数据中学习更具有可泛化性的表征,从而在下游任务中获得更好的性能。受SSL在CV和NLP领域成功经验的启发,将SSL应用于图数据以充分利用图结构信息和丰富的无标记数据是一个重要而有前景的方向。然而,到目前为止,图上的SSL还没有得到充分的探索,许多重要的问题仍有待解决。
与图像和文本数据相比,SSL在图域的应用具有重要意义和巨大的潜在研究前景:
首先,除了节点特征和部分已知的标签,图数据包含了揭示节点连接性的图结构,可以设计大量的代理任务来同时捕捉节点间潜在的语义关系。 其次,现实世界的图通常是按照特定的规则形成的,例如,分子图中原子之间的连接受价键理论约束。因此,大量相关的领域知识可以作为先验被纳入到代理任务的设计中。 最后,图结构数据一般支持归纳学习(transductive learning),如节点分类任务,这意味着在训练过程中,训练、验证和测试的样本特征都是可见的,这使得设计更多与特征相关的代理任务成为可能。
然而,这并不以意味着现有的一些用于图像或者文本的自监督技术可以直接迁移到图域中,欧几里得数据和非欧几里得数据的内在差异使得设计适用于图的自监督技术仍然非常具有挑战:
首先,图像的拓扑结构是固定的网格,文本是简单的序列,而图则不限于这些刚性结构。 其次,与图像和文本中数据的独立同分布假设不同,图中的节点是相互关联的,而不是完全独立的。这启发我们通过考虑节点属性和图结构来设计合适的代理任务。 最后,由于自监督代理任务和下游任务的优化目标之间存在着差异,这种差异可能导致“负迁移”,将极大地损害模型的泛化性。因此,重新考虑代理任务的优化目标以使其更好地匹配下游任务的优化目标并使它们相互一致是至关重要的。
在本综述中,我们扩展了最早出现在计算机视觉和自然语言处理领域的SSL概念,对现有的图数据SSL技术进行了及时和全面的回顾。具体来说,我们将现有的图SSL方法分为三类:对比性的、生成性的和预测性的,如下图所示:
对比式方法:对不同的增广 和 产生的视图进行对比学习,将数据-数据对(inter-data)之间的共性和差异信息作为监督信号。 生成式方法:关注图数据内部(intra-data)的信息,一般基于特征/结构重构等代理任务,利用图本身的特征和结构作为监督信号。 预测式方法:通过一些简单的统计分析或专家知识self-generate伪标签,然后根据生成的伪标签设计基于预测的代理任务来处理数据-标签(data-label)关系。
接下来,我们从high-level上详细介绍这三种方法,并列举一些有代表性的方法作为例子,本综述的整体架构如下:
2. 训练策略
在深入介绍三种类型的图自监督技术之前,我们先介绍目前图SSL上常见的三种训练策略。考虑到编码器、代理任务和下游任务三者之间的关系,训练策略可以分为三种:
预训练和微调(Pre-training and Fine-tuning) 联合学习(Joint Learning) 无监督表征学习(Unsupervised Representation Learning (URL)
它们详细的工作流程如上图所示,接下来我们对各个训练策略分别详细介绍:
2.1 预训练和微调(Pre-training and Fine-tuning)
2.2 联合学习(Joint Learning)
2.3 无监督表征学习(Unsupervised Representation Learning)
3. 对比式学习(Contrastive Learning)
3.1 数据增广策略
3.1.1 基于特征的增广
Attribute Masking
Attribute Shuffling
3.1.2 基于结构的增广
Edge Perturbation(边扰动 )
Node Insertion(节点插入)
Edge Diffusion (边扩散)
3.1.3 基于采样的增广
Uniform Sampling(Node Dropping)
Ego-net Sampling
Random Walk Sampling
Importance Sampling [5]
Knowledge Sampling [12]
3.1.4 自适应增广
Attention-based
Gradient-based
3.2 对比式学习:代理任务
3.2.1 同尺度对比
Global-Global contrasting
Context-Context contrasting
Local-Local contrasting
3.2.2 跨尺度对比
Local-Global Contrasting
Local-Context contrasting
Context-Global contrasting
Donsker-Varadhan估计器
Jensen-Shannon估计器
InfoNCE估计器
Triplet Margin Loss
4. 生成式学习(Generative Learning)
4.1 Graph Autoencoding
Node Attribute and Embedding Denoising
4.2 Graph Autoregressive
GPT-GNN
5. 预测式学习(Predictive Learning)
5.1 节点属性预测
Node-Property Prediction [9]
5.2 基于上下文的预测
PairwiseDistance
5.3 自训练
Cluster Preserving [10]
5.4 基于领域知识的预测
Graph-level Motif Prediction
6. 实现总结
下表列出了本综述审阅的各个方法,适用图的属性、代理任务类型、数据增广策略、目标函数、训练策略和出版年份。
下表展示了本综述审阅的工作的具体实现细节,如下游任务的(节点/链接/图)类型、特定任务的评价指标以及所用的数据集。
代码开源有利于对深度学习社区的发展。下表中列出了所调研工作的开源代码总结,我们提供了其开源代码的超链接,那些没有找到开源代码的作品用 'N.A '表示。这些方法大多基于Pytorch或Tensorflow库实现。此外,我们还创建了一个GitHub资源库:
https://github.com/LirongWu/awesome-graph-self-supervised-learning
来总结图自监督学习技术的最新进展,随着更多论文及其代码的出现,该资源库将被不定期持续更新
Reference
[1] Y. You, T. Chen, Y. Sui, T. Chen, Z. Wang, and Y. Shen, “Graph contrastive learning with augmentations,”Advances in Neural Information Processing Systems, vol. 33, 2020.
[2] J. Qiu, Q. Chen, Y. Dong, J. Zhang, H. Yang, M. Ding, K. Wang, and J. Tang, “Gcc: Graph contrastive coding for graph neural network pre-training,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. 1150–1160.
[3] S. Thakoor, C. Tallec, M. G. Azar, R. Munos, P. Veliˇckovi´c, and M. Valko “Bootstrapped representation learning on graphs,” arXiv preprint arXiv:2102.06514, 2021.
[4] P. Velickovic, W. Fedus, W. L. Hamilton, P. Li` o, Y. Bengio, and R. D. Hjelm, “Deep graph infomax.” in ICLR (Poster), 2019.
[5] Y. Jiao, Y. Xiong, J. Zhang, Y. Zhang, T. Zhang, and Y. Zhu, “Sub-graph contrast for scalable selfsupervised graph representation learning,” arXiv preprint arXiv:2009.10273, 2020.
[6] F.-Y. Sun, J. Hoffmann, V. Verma, and J. Tang, “Infograph: Unsupervised and semi-supervised graphlevel representation learning via mutual information maximization,” arXiv preprint arXiv:1908.01000, 2019.
[7] F. Manessi and A. Rozza, “Graph-based neural network models with multiple self-supervised auxiliary tasks,” arXiv preprint arXiv:2011.07267, 2020.
[8] Z. Hu, Y. Dong, K. Wang, K.-W. Chang, and Y. Sun,“Gpt-gnn: Generative pre-training of graph neural networks,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. 1857–1867.
[9] W. Jin, T. Derr, H. Liu, Y. Wang, S. Wang, Z. Liu, and J. Tang, “Self-supervised learning on graphs: Deep insights and new direction,” arXiv preprint arXiv:2006.10141, 2020.
[10] Z. Hu, C. Fan, T. Chen, K.-W. Chang, and Y. Sun, “Pretraining graph neural networks for generic structural feature extraction,” arXiv preprint arXiv:1905.13728, 2019.
[11] Y. Rong, Y. Bian, T. Xu, W. Xie, Y. Wei, W. Huang, and J. Huang, “Self-supervised graph transformer on large-scale molecular data,” Advances in Neural Information Processing Systems, vol. 33, 2020.
[12] S. Zhang, Z. Hu, A. Subramonian, and Y. Sun, “Motifdriven contrastive learning of graph representations,”arXiv preprint arXiv:2012.12533, 2020.
[13] Y. Zhu, Y. Xu, F. Yu, Q. Liu, S. Wu, and L. Wang,“Graph contrastive learning with adaptive augmentation,”arXiv preprint arXiv:2010.14945, 2020.
[14] N. Jovanovi´c, Z. Meng, L. Faber, and R. Wattenhofer,“Towards robust graph contrastive learning,” arXiv preprint arXiv:2102.13085, 2021.
[15] Z. Peng, Y. Dong, M. Luo, X.-M. Wu, and Q. Zheng, “Self-supervised graph representation learning via global context prediction,” arXiv preprint arXiv:2003.01604, 2020.
[16] Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, and S. Y. Philip, “A comprehensive survey on graph neural networks,” IEEE transactions on neural networks and learning systems, 2020.
[17] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever, “Language models are unsupervised multitask learners,” OpenAI blog, vol. 1, no. 8, p. 9, 2019.
[18] K. He, H. Fan, Y.Wu, S. Xie, and R. Girshick, “Momentum contrast for unsupervised visual representation learning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 9729–9738.
[19] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in International conference on machine learning. PMLR, 2020, pp. 1597–1607.
[20] F. Zhuang, Z. Qi, K. Duan, D. Xi, Y. Zhu, H. Zhu, H. Xiong, and Q. He, “A comprehensive survey on transfer learning,” Proceedings of the IEEE, vol. 109, no. 1, pp. 43–76, 2020.
[21] J. Zeng and P. Xie, “Contrastive self-supervised learning for graph classification,” arXiv preprint arXiv:2009.05923, 2020.