KDD CUP 2018:中国团队包揽前三名,TOP1方案出炉
KDD Cup是由国际计算机协会数据挖掘及知识发现专委员会(ACM SIGKDD)主办的数据挖掘竞赛,至今已举办21届,是目前数据挖掘领域最有影响力、最高水平的国际顶级赛事。每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛,被外界誉为大数据领域的“奥运会”。
今年KDD Cup的题目是要求参赛选手预测北京和伦敦两个城市空气质量。手需要针对过去的天气数据,预测未来两天的空气质量。在48小时后,选手提交的结果将通过真实的天气数据评分。如果可以准确预测污染事件,市民和政府可以随之作出适当的决策,从而减少污染带来的损害,其应用价值及学术价值得到了国际专业学术组织的认可。
本次比赛共吸引了来自全球4183支队伍参赛,包括3000多个学校或机构,来自49个国家。北京邮电大学韩金栋、张前前、刘娟,中南大学罗宾理及蒋浩然组成的参赛队伍在该项赛事主赛道中取得第一名。
TOP1分享方案:
主要挑战:
1.空气质量突变;
2.需要很强的专业领域知识;
3.很多因素导致城市里各个地方的空气质量是不同的。
除了原始特征外,我们构造了四种不同类型的特征群,从时域、空域、频域和专业领域知识四个方面分别构建特征群。
时域特征
利用预测时间附近天气预报数据的统计(不同的统计方式,可以统计预测时间节点之前的统计信息,也可以将预测时间节点为中心进行统计)防止天气突变。
将预测时间标为0~47,区分第一天和第二天。
频域特征
为了得到时间序列中隐藏的周期信息和波动信息,对空气质量,温度,湿度,气压等时间序列进行傅立叶变换,得到频域统计特征。
空域特征
未来的空气质量不仅与过去的空气质量有关,而且还受到周边空气质量和天气的影响。为了对空间相关性进行建模,我们从针对过去的空气质量和天气以及未来的天气预报分别提取了表征空间相关性的特征。我们尝试使用了所有的空气质量站点和天气监测站点的数据,这样会增大了模型的复杂度,导致发生了严重的过拟合。于是我们假设只有部分站点会对我们要预测的站点产生影响,并使用一些技巧去降低空间特征的输入维度。
首先对于过去的空气质量和天气,我们又将其分为两类。一类是没有方向的特征,包括压强、温度、湿度。为了提取这类特征,我们使用两个半径不同的圆将待预测站点周边划分为两个区域,分别为内圆区域和外部的圆环区域,具体划分方式可以见下图。我们提取了每一个区域的压强、温度和湿度的均值 。
另一类是有方向的特征,污染物浓度和风的扩散都是有方向的。为了建模这一类特征对空气质量的影响,我们将目标站点的方位划分为八个方向,分别考虑八个不同方向区域对目标站点的影响。对于每一个区域,提取其风速和污染物浓度的均值。此外,我们又将风向离散为八个方向,每一个区域的风向由众数决定。如果某一区域污染物浓度缺失,我们使用插值的方法进行补全。
以上两类特征我们均只提取了预测前最后一小时的数据,这些特征对于短期预测起到了一个良好的效果。
对于未来的天气预报,由于天气网格点和空气质量监测站点的位置不是对应的,因此我们采用了一种k近邻的方法去提取空气质量监测站点周边的天气网格点。具体做法是寻找距离空气质量检测站点最近的四个天气网格点,使用这些网格点的特征表征未来天气预报对空气质量的影响,这种方法可以提高长期预测的准确率。
专业领域特征
查阅气象学相关论文,通过风向uv坐标系,日照时长,污染物之间的相关性等方面提取特征。
第一名解决方案ppt见:
https://github.com/luoda888/2018-KDD-Cup-Top1-Solutions