KDD 2019点亮华人之光 清华北大中科大等榜上有名
今天,KDD 2019大奖正式公布,最佳论文及三大竞赛等主要奖项全部揭晓,中国军团大放异彩。来自康奈尔大学的华人博士Dong Kun荣获Research Track最佳论文,KDD CUP三大赛事、初创公司奖项也基本都被中国包揽。
正值第25届KDD在美国阿拉斯加州安克雷奇市召开之际,GCT(Global Chinese Talents,全球华人专家库)也于本周正式上线了KDD[2019]人才库,目前世界数据挖掘领域的1636名专家学者相关信息都被收录其中。同时,2019年第一期《人工智能之数据挖掘》报告(在本公号回复“15”,可下载数据挖掘最新报告)也于不久前对外发布,该报告对数据挖掘的概念与研究概况、数据挖掘的算法与实现以及数据挖掘的应用领域与发展趋势进行了详细阐述。
通过KDD[2019]人才库收录的数据挖掘领域专家学者数据来看,无论是从参与KDD会议的人数、论文发表数、论文影响力,还是从获奖情况、参与活动组织和参展情况等多个方面来看,厚积薄发的华人力量正在强势崛起,在KDD领域拥有世界有目共睹的优异表现。
华人博士斩获最佳论文
中国军团横扫KDD
Dong Kun
荣获本届最佳论文奖的作品题为“Network Density of States”,第一作者是康奈尔大学应用数学专业博士生Dong Kun,该文阐述了“利用研究凝聚态物理中状态密度的方法来研究网络中的谱密度”的研究方法,打开了使用完整光谱信息作为大规模网络分析工具的大门。其他作者还有康奈尔大学计算机系助理教授Austin Reilley Benson和康奈尔计算机系副教授David Bindel。
素来就有“大数据世界杯”之称的KDD CUP 2019竞赛,是由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办的数据挖掘研究领域的国际顶级赛事,从 1997 年至今已有 22 年的历史。作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,KDD CUP 每年都会吸引来自世界各地数据挖掘领域的顶尖专家、学者和工程师参赛。
在本届的KDD CUP中,中国军团的表现可谓星光璀璨,一举包揽绝大多数奖项。在常规机器学习竞赛、自动机器学习竞赛、“Research for Humanity” 强化学习竞赛三大赛道中,常规机器学习竞赛分为最适合的交通方式推荐与开放研究/应用挑战两大任务,来自支付宝安全团队的Shiwen Cui、Changhua Meng、Can Yi、Weiqiang Wang、Xing Zhao、Long Guo,拿下了任务1的冠军。上海微盟、趋势科技、滴滴、北京邮电大学、华南理工大学、京东等获得任务1的亚军。东南大学拿下了任务2的亚军;额外设立的PaddlePaddle特别奖则由中国科学技术大学获得。
在自动机器学习竞赛中,由来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获冠军,团队成员均毕业或就读于北大。新加坡国立大学的 NUS-Xtra-Lab 团队获得第二名,阿里巴巴集团和佐治亚理工学院组成的 admin 团队则获得第三名。排名前十的队伍中还包括清华大学、南京大学、微软亚洲研究院、海康威视、美团点评等高校或机构。
在“Research for Humanity” 强化学习竞赛中,中国台湾国立成功大学获得冠军,清华大学、京东和北京航空航天大学获得亚军,季军则由瓜子网收入囊中。
初创公司奖项由来自英国的Arkive、deepair和另两家来自中国的创业公司获得,其中包括清华大学 AI 研究院的创业公司 RealAI(瑞莱智慧)以及企业征信机构天眼查。
在人物奖方面,IBM Watson的研究人员Charu Aggarwal因数据挖掘的终身成就获得了SIGKDD的创新奖(Innovation Award)。而今年的学位论文奖(Dissertation Award)颁发给了来自华盛顿大学的Tim Althoff,该奖项第二名是来自UIUC的华人学者Chao Zhang。
不止论文、竞赛都被中国军团雄霸。此外,在KDD 2019组织委员会中,也出现了不少中国学者的名字,在组委会的57人中,华人/中国人有14人,占比约25%。同时,华人还在KDD 2019中组织了高品质的活动,在今年的大会上,清华大学唐杰教授在KDD China、KDD Deep Learning Day等会议上分享了在最新的研究成果。
在KDD 2019赞助商方面,中国力量也格外显眼。百度、腾讯、滴滴、阿里巴巴、快手、浪潮和字节跳动和松鼠AI都出现在了赞助名录上。
可见,越来越多的华人正参与到KDD当中,而从参与度到科研成就,从影响力到活动组织,华人的力量无处不在且无可替代。
首次采用双盲评审
KDD 2019备受关注
自1995 年以来,ACM SIGKDD(Conference on Knowledge Discovery and Data Mining, 简称KDD)已经以大会的形式连续举办了二十余届全球峰会。
作为数据挖掘领域最顶级的学术会议,KDD 大会涉及的议题大多跨学科且应用广泛,吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算以及大数据挖掘等众多领域的专家和学者。
据悉,本届KDD共有来自51个国家和地区的3150人参会,其中,有超过832位女性注册和443位学生注册,还162名学生志愿者。
KDD大会历来以论文接收严格闻名,每年的接收率不超过 20%,因此颇受行业关注。与以往不同的是,今年是KDD采用双盲评审的第一年,并且将论文中项目的“可重现性”作为衡量的重要指标,即论文之外还需额外提交内容展示可复现性,包括实验方法、经验苹果和结果等,甚至在论文中要展现研究代码和数据、所用的算法和资源。
更激烈的竞争和更高的要求都使得“最佳论文”的角逐更加激烈,这些原因客观上增加了论文被接受的难度,但同时也大大提高了论文含金量。
于是,KDD 2019自然也成为了备受关注的一届。
KDD大会分为 Research track和 Applied track。今年KDD Research track共收到了1179 篇投稿,其中约111篇被接收为 oral 论文,63 篇被接收为 poster 论文,接收率约 15%。
Applied track收到大约 700 篇论文,其中大约 45 篇被接收为 oral 论文,约 100 篇被接收为 poster 论文,接收率约 20.7%。
以下就来看看获奖论文的详情吧……
研究方向最佳论文
论文:Network Density of States
作者:Kun Dong、Austin R. Benson、David Bindel(康奈尔大学)
链接:http://arxiv.org/pdf/1905.09758.pdf
在本文中,研究者深入探索了真实世界图谱谱密度的核心。他们借用了凝聚态物理学中开发的工具,并添加了新的适应性来处理常见图形的谱特征。他们计算了单个计算节点上超过 10 亿个边的图的谱密度,证明所得到的方法非常高效。
除了提供视觉上引人注目的图形指纹之外,研究者还展示了谱密度的估计如何简化许多常见的中心度量的计算,并使用谱密度估计关于图结构的有意义信息,这些信息不能仅从极值特征对推断出来。
研究方向亚军论文
论文:Optimizing Impression Counts for Outdoor Advertising
作者:Yipeng Zhang、Yuchen Li、Zhifeng Bao、Songsong Mo、Ping Zhang(皇家墨尔本理工大学、新加坡管理大学、武汉大学、华为)
链接:http://delivery.acm.org/10.1145/3340000/3330829/p1205-zhang.pdf
这项研究解决的是关于户外广告如何投放才最划算的问题。本文提出并研究了对室外广告影响力的优化问题,尤其是关于广告牌给用户留下好印象的次数的计算问题。对于给定的广告牌数据集U,每个广告牌都有自己的地理位置和不同的成本以及一个映射数据集T和预算B,目的是找到在预算B条件下达到最大影响力的广告牌。和广告消费者行为研究一样,利用逻辑函数来计算展示在不同广告牌上的广告给消费者留下好印象的次数,以此作为衡量广告影响力的量度。
不过,这种方法产生了两个问题。首先,这个问题属于NP困难问题(非确定性多项式困难问题),目标是对于任何多项式时间ε > 0,在复杂度O(|T |1-ε)下进行估计。第二,对影响力的量度属于非子模块,采用直接贪心算法是不可行的。
本文提出了基于切线的算法计算子模块函数,来估计影响力的上界。此后,他们使用一个带θ终止条件的分支边界框架,不过,这个框架在|μ|很大时,运行非常耗时,他们又利用渐进式剪枝上界估计方法对其进行了进一步优化,大大降低了运行时间。在实验中使用的是现实世界中的广告牌和映射数据集,结果表明,他们使用的方法在效率上比基线方法高出了95%。而且,经过优化的方法比原始框架的运行速度快了两个数量级。
应用方向最佳论文
标题:Actions Speak Louder than Goals:Valuing Player Actions in Soccer
作者:Tom Decroos、Lotte Bransen、Jan Van Haaren、Jesse Davi
链接:http://arxiv.org/pdf/1802.07127.pdf
获得 KDD 2019 应用数据挖掘方向最佳论文的研究来自于比利时天主教鲁汶大学和体育分析公司 SciSports,研究有关使用新方法评价足球运动员的能力:球员在场上的动作比进球更有价值,这是一项颇具《Money Ball》风格的工作。
评估足球运动员比赛中个人行动所造成的影响是评估他们的重要指标。然而,大多数传统指标在解决此类任务时效果都不尽如人意,因为它们只关注整场比赛中仅有的几次特殊动作,比如射门和进球——而忽视了行动的背景。
研究人员提出的方法包括:
一种用于描述球场上各个球员动作的新语言;
基于它对比赛结果的影响来评估任何类型球员动作的框架,同时考虑了动作发生的背景。
通过评估足球运动员的动作「价值」,可以量化他们对球队的总体进攻和防守贡献。研究人员展示了使用新方法如何找到传统球员评估方法忽略的信息,有关用例已在 2016/17 和 2017/18 赛季欧洲顶级联赛球探考察球员以及比赛风格描述工作中使用。
应用方向亚军论文
论文:Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams
作者:Richard Chen、Filip Jankovic、Nikki Marinsek(苹果、Evidation Health、礼来公司、)
链接:http://alessiosignorini.com/articles/developing-measures-cognitive-impairment-multimodal-sensor-streams/paper.pdf
这是一项用可穿戴设备来检测认知功能障碍 (可能是痴呆前兆) 的研究,由苹果公司牵头。
在本文中,研究者提出了一个平台,可以利用消费级智能设备来远程监控认知障碍相关症状,并且不对用户生活造成明显影响。通过礼来公司一项为期 12 周的探索性数字评估研究,研究者监测了 31 名认知障碍患者和 82 名无认知障碍患者在自由生活条件下的情况,并利用该平台收集了 16TB 的数据。
研究者描述了如何谨慎地使用数据统一(data unification)、时间对齐(time alignment)和缺失值处理技术(imputation technique)来处理真实环境中固有的数据缺失率,并展示了这些数据的实用价值。
经典论文奖
论文:Cost-effective outbreak detection in networks
作者:Jure Leskovec、Andreas Krause、Carlos Guestrin,Christos Faloutsos、Jeanne VanBriesen、Natalie Glance
链接:http://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
Jure Leskovec的学术领域和学术统计
今年的经典论文奖(Test of Time Award)颁发给 KDD 2007的最佳学生论文:Cost-effective Outbreak Detection in Networks,作者来自CMU和Nielsen BuzzMetrics。
该论文的第一作者Jure Leskovec现在是斯坦福大学计算机科学系副教授,研究重点是大型社会和信息网络的挖掘和建模。Leskovec在学生时代就是牛人,在KDD、WWW、INFOCOM等学术会议发表多篇论文,获得2 篇 KDD 最佳论文(2007最佳学生论文和2005最佳研究论文),博士毕业即加入斯坦福任教。
在该研究中,Jure Leskovec等人提出一种可以最快速检测扩散信息的新方法,并证明了许多现实的爆发检测目标(例如检测可能性、受影响人群)表现出了「子模块性」的特性。利用子模块开发出的新算法可以扩展到更大的问题,实现接近最佳的配置,同时比简单的贪婪算法快 700 倍。此外,该方法易于扩展,并可以节省数个数量级的存储。
分享干货