清华大学和微软研究院联合发布的“开放学术图谱(OAG)2.0版本”数据完善
开放学术图谱 (OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术 (Microsoft Academic Graph,MAG)和AMiner 。
开放学术图谱(OAG) 2.0在今年2月发布之后,受到各界的关注和反馈。我们在OAG 2.0的基础上,完善了微软学术(MAG)论文数据,更新版本添加了以下论文属性:论文引用关系、论文研究领域(fields of study)、索引后的论文摘要、论文作者机构。
MAG论文更新版下载链接:
http://c7.gg/f7GnH
OAG访问网址:
https://www.aminer.org/oag2019
OAG v1
2017年8月,清华大学和微软研究院联合发布的OAG v1,具体来说包含了来自MAG的166,192,182篇论文和来自AMiner的154,771,162篇论文的元数据信息。经过集成这些数据信息,生成了两个学术图谱之间近64,639,608对链接(匹配)关系。
OAG v1概览
OAG v1在过去一年多的时间里吸引了约40,000次下载。这次,OAG v2在OAG v1的基础上增加了作者和出版地点相关的数据。
OAG v2
OAG v2包含了更多类型实体(作者,出版地点,论文)以及相应的匹配关系。OAG v2定义的问题如下图所示。
大规模实体匹配的示例
上面的表格介绍了OAG目前有约7亿实体数量,不同实体相互联系构成一个大规模异构网络。图中间表示作者名字的歧义性。图下面展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。
OAG致力提供完全开放、免费的公开学术图谱。截止2019年1月,OAG包括约7亿实体和约20亿实体之间的链接关系。OAG v2的统计数据如下面三个表所示。MAG和AMiner两个学术图谱都在不断演变,OAG v2采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。
数据类型 |
#匹配对/出版地点 |
日期 |
匹配关系 |
29,841 |
2018.12 |
AMiner出版地点 |
69,397 |
2018.07 |
MAG出版地点 |
52,678 |
2018.11 |
表1:OAG出版地点数据统计
数据类型 |
#匹配对/论文 |
日期 |
匹配关系 |
91,137,597 |
2018.12 |
AMiner论文 |
172,209,563 |
2019.01 |
MAG 论文 |
208,915,369 |
2018.11 |
表2:OAG论文数据统计
数据类型 |
#匹配对/作者 |
日期 |
匹配关系 |
1,717,680 |
2019.01 |
AMiner作者 |
113,171,945 |
2018.07 |
MAG作者 |
253,144,301 |
2018.11 |
表3:OAG作者数据统计
注:对于作者匹配,学者们只考虑了论文数不少于5的作者。将论文数量较少的作者排除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。
挑战与困难
构建亿级开放学术图谱是一项极具挑战的研究工作。下面举例说明主要的难点所在:
1. 实体异构
OAG中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;出版地点有全称或缩写等多种形式。
2. 实体歧义
同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。
3. 大规模匹配
要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner和MAG各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。
为此,学者们尝试结合哈希算法,不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。
评估
学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),准确率如表4所示。
实体类型 |
出版地点 |
论文 (新匹配) |
作者 |
准确率 |
99.26% |
99.10% |
97.41% |
表4:实体匹配准确率
开放学术图谱是开放学术组织(Open Academic Society)的一个重要项目。它是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。
OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。
OAG访问网址:
https://www.aminer.org/oag2019
参考文献
[1] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246. [PDF ][System ][API ]
[2] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998. [PDF ] [Slides ] [System ] [API ]
学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校噢!