【导读】近日,由清华大学人工智能研究院、北京智源人工智能研究院、清华 — 中国工程院知识智能联合研究中心共同编写的《人工智能之数据挖掘》报告正式发布。报告针对数据挖掘的情况进行了深度剖析,从数据挖掘的概念内涵、关键技术、人才研究、应用场景、发展趋势 5 个部分,介绍数据挖掘的最近研究进展,并展望了数据挖掘的未来发展趋势。
数据挖掘旨在从数据中挖掘知识,是一种跨学科的计算机科学分支,使用人工智能、机器学习、统计学和数据库等交叉学科领域方法在大规模、不完全、有噪声、模糊随机的数据集中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。报告分别对数据挖掘十大经典算法、统计数据分析方法、科技情报挖掘技术、社交网络与图数据挖掘技术、自然语言数据挖掘技术、多媒体数据挖掘技术、大规模数据挖掘技术、数据隐私保护和安全等方面进行了详细介绍和深入分析,并解读了 2013 年 - 2020 年 SIGKDD 会议收录的代表性论文。报告旨在为读者了解数据挖掘领域基础研究和应用研究等方面的代表性成果、研究动向和进展提供信息窗口。报告还介绍了数据挖掘技术在零售业、旅游业、物流业、医学界、金融业和电信业领域的应用。报告依托清华大学自主研发的 AMiner 平台,分析了数据挖掘领域 21,018 位研究学者,并以他们发表的论文作为底层数据,从学者分布、学术水平、国际合作、学者流动等维度,对比分析了国内外机构、学者在该领域的发展状况,并利用 AMiner 平台的学者画像功能,展示了国内外代表性学者的详细信息,最后给出了相应的对策建议。下面选取具有代表性的分析维度进行说明:
数据挖掘和社交网络的研究热度居高不下,近五年来大数据、异常检测和时间序列挖掘的研究热度呈现明显的上升趋势。另外,聚类和分类的研究热度一直维持在较高水平,但在近五年内呈现出明显的下滑趋势。
AMiner 平台数据显示,世界范围内数据挖掘领域高水平学者主要集中在以美国为首的北美洲、以英国、意大利为首的欧洲,和以中国为首的亚洲。
图 3丨数据挖掘领域 h-index 排名前 1000 学者的全球分布地图
中国数据挖掘领域高水平学者主要分布在京津冀地区、长江三角洲地区、广东省、香港特别行政区等中国东部发达地区。
图 4丨 数据挖掘领域 h-index 排名前 1000 学者的中国分布地图
学术水平
数据挖掘领域高水平论文总被引频次最高的国家是中国,其次是美国,但两者相差不大。中美两国在论文总被引频次、论文发表量、学者数量等指标上均远高于其他国家。
表 1 数据挖掘高水平论文总被引频次排名前 10 的国家
数据挖掘领域高水平论文总被引频次排名前 10 的全球机构中,中国仅清华大学上榜(排名第 5),其余 9 所机构均在美国。
表 2 数据挖掘高水平论文总被引频次排名前 10 的全球机构
国家合作
在数据挖掘领域合作高水平论文数量排名前 10 的国家中,大部分国家都倾向与中国(与其合作的国家数量为 6 个)、美国(与其合作的国家数量为 5 个)合作,其中中美两国合作最紧密。
表 3 数据挖掘领域合作论文数量排名前 10 的国家列表
2010 年 —2020 年间,美国数据挖掘领域学者流入和流出人次均位居全球首位,中国虽然位居第二,但约为美国一半。美国和澳大利亚在该领域学者流出人次大于流入人次,而中国、英国、印度、德国等国家相反。
图 6丨全球数据挖掘领域学者的流动情况
2010 年 —2020 年间,中国各省市中,北京市的数据挖掘学者流入和流出的人次明显高于其他地区。北京、上海和香港在该领域学者流入人次均高于流出人次,而南京、西安、武汉和杭州等地与此相反。
图 7丨中国数据挖掘领域学者的流动情况
学者画像
报告利用 AMiner 平台的 “学者画像” 功能,展示了数据挖掘领域国内外具有代表性的专家学者信息,包括基本信息、研究兴趣、学术指标、科研网络等。
图 8丨AMiner 平台数据挖掘领域学者画像示例