IJCAI 2019 | ProNE: 高精度快速网络表示学习算法

论文作者:Jie Zhang, Yuxiao Dong, Yan Wang, Jie Tang, and Ming Ding

论文地址:http://keg.cs.tsinghua.edu.cn/jietang/publications/IJCAI19-Zhang-et-al-ProNE-fast-and-scalable-network-representation-learning.pdf

代码& 数据:https://github.com/THUDM/ProNE

网络数据的表示学习是今年机器学习和数据挖掘挖掘的热点,这也为网络数据分析提供了新的范式。图表示学习(图嵌入)的目标是将图结构数据投射嵌入到低维的连续空间,同时保留图结构的内在属性。大量的研究表明,学习到的图表示可以有效帮助各种图结构的数据挖掘任务。然而目前的网络表示学习算法要么存在不适用于大规模网络的问题,要么可能存在精度低的问题。

为了更快地在大规模数据上学习有效的图表示,我们提出了ProNE算法。ProNE的主要流程步骤如图所示。ProNE由两个步骤组成,稀疏矩阵分解步骤和谱传播步骤。

首先,我们在建模图结点的相似度和负采样的过程中,充分利用了图结构的稀疏性,从而将图表示学习化归为了稀疏矩阵的分解,并使用randomized svd快速地得到了初步的图表示。接着,为了更进一步地考虑高阶的图信息,我们借助了Cheeger不等式对图的谱空间和图分割的联系进行了分析,从而在图的谱空间设计了带通的滤波器,通过调整图的特征值让图体现出全局的聚类效果和局域的平滑效果。我们在新图上传播第一步的初始图表示,就得到了ProNE的结果。

我们在PPI、Wiki、BlogCatalog、DBLP和Youtube等千级结点到百万级结点的图上进行了验证实验。实验表明,和DeepWalk、node2vec、 LINE、 Grarep、HOPE等算法相比,ProNE不仅拥有不逊的精度表现,更有10-400倍的速度提升。我们在亿级结点的模拟图上进一步验证了ProNE的可扩展性。另外,ProNE的谱传播步骤作为一种通用的图表示的提升方法,值得进一步的研究。下图和表给出了ProNE以及对比的几个算法在5个数据集上的表现。ProNE在YouTube百万级的网络上只需要10分钟就可以完成所有节点的表示学习。速度比最快的算法LINE快9倍,比node2vec快400倍。

在精度方面,ProNE在以上五个数据集上都明显好于几个对比的方法(包括DeepWalk、LINE、node2vec等)。我们还和之前的NetMF方法进行了对比,NetMF是把传统方法都统一到矩阵分解的框架下,在精度上得到了提升,但速度比较慢。相比NetMF,ProNE进一步提高了精度。提高的原因来自谱传播。于是我们对谱传播做了进一步的分析,发现原来谱传播可以大大提高不同方法的精度。从某种意义上来说,谱传播可以作为一个通用的框架,来提升不同网络表示学习方法。

表:不同对比方法在5个数据集上的实验效果(精度)

学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!

(0)

相关推荐

  • 2021年的第一盆冷水:有人说别太把图神经网络当回事儿

    转载自:机器之心 图神经网络(GNN)是目前热门的研究方向,但我们是否应把注意力过多地放在这上面?数据科学家 Matt Ranger 从模型的本质.性能基准测试.实践应用等方面陈述了自己的观点. 图神 ...

  • 基于图模型的智能推荐算法学习笔记

    一.基于知识图谱的智能推荐 以知识图谱作为边信息生成推荐的价值在于:一方面可以提供更准确的推荐:另一方面可以对推荐结果进行解释. 知识图谱由实体和关系组成(以电影推荐为例):实体(用户.电影.演员.导 ...

  • 深度学习技术在美图个性化推荐的应用实践

    作者:陈文强.白杨.黄海勇 出品社区:DataFunTalk 导读:美图秀秀社交化的推进过程中,沉淀了海量的优质内容和丰富的用户行为.推荐算法连接内容消费者和生产者,在促进平台的繁荣方面有着非常大的价 ...

  • AI|当推荐系统遇上图学习:IJCAI 2021基于图学习的推荐系统最新综述

    『运筹OR帷幄』转载 作者:Shoujin Wang Shoujin Wang, 麦考瑞大学博士后, 研究方向:数据挖掘,机器学习,推荐系统.  编者按 作为人工智能最重要的应用之一,推荐系统几乎存在 ...

  • 大佬带队!7天带你搞定图神经网络

    要问这几年一直在逆势而上的技术有哪些?你一定不会忽略它--图神经网络. 相比传统神经网络,图神经网络的优势非常明显: 1.非顺序排序的特征学习:GNN的输出不以节点的输入顺序为转移的. 2.两个节点之 ...

  • NAACL 2019 论文 | 基于胶囊网络的知识图谱表示学习

    知识图谱表示学习(Knowledge Graph Embedding)是将知识图谱中的实体和关系等表示为低维的向量空间中的向量,这些向量蕴含了实体和关系的复杂信息,有利于计算机进行计算和推理. 论文背 ...

  • #高考##高三##快速提分##学习技巧#...

    #高考##高三##快速提分##学习技巧##高考加油##学习方法##高中历史# 高中历史最全汇总[标志性事件] [得意] 高中历史是文综里最简单的科目了吧,虽然它背诵的只是带你很多而且还比较分散,但是提 ...

  • 科研 | 如何快速进行专业学习

    一 一般原则 所谓的一般原则,是指快速获取专业知识的普遍性规则.在工作或者学习中,出于需要,很多时候需要快速学习,即在短时间内获取大量的信息,成为这个领域具有一定功底的人.因此,效率在这样的学习中非常 ...

  • Python网络爬虫学习基础笔记

    python requests库爬虫基础 本次学习的python爬虫所使用的是requests库 下面就是requests库的7种主要方法 方法名 说明 requests.request() 构造一个 ...

  • “三天好杯”2019第二届陶瓷网络展销会

    “三天好杯”2019第二届陶瓷网络展销会

  • “三天好杯”2019第二届书画网络展销会

    “三天好杯”2019第二届书画网络展销会

  • SAAS服务商助力企业快速构建培训学习体系

    企业培训是企业员工提升工作素质的重要途径之一,但是面对遍布全国的员工,提供大规模且行之有效的培训,并有效追踪各种培训数据,这紧迫费时费力的任务是人工线下培训无法完成的. 在线学习培训系统的出现,解放了 ...

  • 网文写作模板摘选自网络 共同学习 一本成...

    网文写作模板 摘选自网络 共同学习 一本成功的网络小说,很多都是300万字,一个章节,往往是3000字,繁体出版,一册是60000字. 因为,三这个数字非常好用,一太单调,二太死板,四又显得有些多,三 ...

  • 清华唐杰教授综述全面解读网络表示学习(NRL)最新动态

    撰文:吴婷婷 在计算机技术飞速发展的今天,机器处理现实生活中复杂任务的能力也越来越强大.其中,从现实世界网络中挖掘有效.相关的信息在许多新兴应用中起着至关重要的作用.例如,在社交网络中,根据个人资料和 ...