《人工智能之图计算》迭代,丰富发展历程,补充完善技术领域

在大数据时代,大量不同的个体之间彼此交互所产生的数据以图的形式表现,在通信、互联网、电子商务、社交网络和物联网等领域中积累了大量的图数据。挖掘大规模的图数据能够提升现有的商务业务,甚至能够促进新的商业模式的产生。

据CNNIC统计,以社交网络为例,Facebook在2014年7月的用户已经达到22亿户,而用户之间的关系数量则更多,以数据的方式进行存储通常会占用几百GB甚至TB级的存储量。而著名的ClueWeb数据包含全量的Web站点和网页,2012年公布的数据集已经达到1亿个节点、425亿条边,仅是存储边的列表的磁盘文件就超过400GB。

因此,在这个数据规模呈现爆发式增长的时代,如何高效计算、存储并管理图数据等问题受到了越来越多的关注。

而图计算即是基于图数据的分析技术与关系技术应运而生的,图计算系统是针对处理图结构数据的系统,图计算也是人工智能中的一个使能技术。

AMiner学术搜索引擎作为一个以科研人员为中心,通过领先的语义分析和挖掘技术,提供在线实时的人才、科技评估报告的情报平台,基于独有的学术图谱数据库,对全球范围内图计算相关领域的学术发展和趋势做了详尽的分析,于今年2月推出了人工智能系列研究报告《人工智能之图计算》。

此次基于更新的相关资料,对该报告进行了迭代,更新优化的内容主要包含以下几个方面:

1、概述篇增加了“图计算的产生与发展”以及“图计算的发展困境”章节,在原有基础上丰富了图计算研究的发展历程,更加清晰地从时代发展的角度展现了图计算系统的进步与完善,以及当前发展所面临的局限。

尽管图形分析一直以来都是计算机相关研究的一个重要领域,但图计算的研究在近年来才受到了重点关注。

自2001年以来,分布式方法就一直是比较热议的处理大图数据的方法。图计算研究真正开始的标志是2004年Google开发出面向大数据并行处理的计算模型MapReduce,这一模型的推出给大数据并行处理带来了巨大的革命性影响。

2、技术篇进行了大量补充和完善。

本次研究报告的迭代针对图技术相关领域进行了丰富,首先在原有报告基础上对于技术方面做了更清晰的分类,主要更新了“图算法”、“图数据计算模型”、“图计算系统”以及“图计算中的关键技术”,简要做以下介绍:

(1)“图数据计算模型”部分按照计算对象,可以分为节点中心计算模型、边中心计算模型、路径中心计算模型和子图中心计算模型四类。其中节点计算模型提出时间最长,且被多个图计算系统引用,因此将其按计算任务调度方法进一步分为同步计算模型、异步计算模型和混合计算模型三类。此外,本章还对不同类型的计算模型进行了对比分析。

(2)“图计算系统”章节按照原有分类标准,补充了部分目前典型性图计算系统的详细分析,如华为诺亚方舟实验室的VENUS系统、Facebook公司的Giraph等,并增加了当前现有图计算系统的特征概览,以更清晰地展示图计算系统的技术性。

(3)增加了“图计算中的关键技术”章节,如异构计算平台、图的划分、容错等。

· 在异构计算系统中,存在着计算能力和计算特点不同的计算单元。比如,GPU具有比CPU更强的多线程并行计算能力,因此在异构系统中,CPU会把一些或者全部的计算交给GPU来执行。在图计算领域,相关的异构计算系统已经被开发出来。

· 图的划分是进行高效图计算的一个关键问题。通常,一个理想的图划分情况是各工作节点的任务量基本相同,同时各工作节点之间的通信量最小,但是这是一个NP难的问题。

· 容错在分布式图处理系统中是需要解决的一个问题。在分布式处理系统中,每台机器都会有一定的概率出错失效,如果不加以处理,将对系统产生严重的影响。常见的分布式图处理系统使用主从节点的方式。

完整分析请参见报告迭代版

学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢。

(0)

相关推荐