来源:Nature
编辑:好困
【新智元导读】他来了,他来了!那个在游戏圈赢麻了的DeepMind又来了!近日,DeepMind在Nature上发文称AI模型在天气预测方面取得胜利。学界表示:您说的都对,但是为啥连个测试数据都没有?
对于没怎么见过雨的北方人来说,确实经常会被「浇」个措手不及。既然完全没有「先验经验」可以借鉴,这时候就只能全靠天气预报了!在围棋和《星际争霸》等游戏领域赢麻了之后,DeepMind即将挑战一个全新的项目——预测天气。在过去的几年里,DeepMind一直在悄悄地与英国气象局合作,而最近一篇发表于《自然》杂志上的论文则展示了这一成果。简而言之,DeepMind设计了一个全新的机器学习模型,可以预测未来几小时内是否会下雨。https://www.nature.com/articles/s41586-021-03854-z结果表明,DeepMind的深度生成模型可以提供更好的预测质量、预测一致性和预测价值。模型在1,536公里×1,280公里的区域内产生了逼真且时空一致的预测,提前期为5-90分钟。通过50多位气象专家的系统评估,与其他两种竞争方法相比,DeepMind的生成模型以89%的绝对优势在准确性和实用性两方面排名第一。今天的天气预测是由强大的数值天气预报(NWP)系统驱动的。通过解决物理方程,数值天气预报系统可以提前数天得到地球尺度的预测。然而,它们很难在两小时内产生高分辨率的预测。即时预报填补了这一关键时间区间的性能空白。气象传感的进步使高分辨率雷达可以高频地(在1公里分辨率下每5分钟)提供测量出的地面降水量数据。过去20分钟的观测雷达被用来提供未来90分钟的概率预测已有的短期预测方法,如STEPS和PySTEPS,沿用NWP的方法来考虑不确定性,但按照带有雷达信息的平流方程对降水进行建模。在这些模型中,运动场由光流来估计,平滑度惩罚被用来近似于平流预报,随机扰动被添加到运动场和强度模型中。这些随机模拟可以得出概率性和确定性的预报,并且在多种空间尺度(从千米尺度到集水区的大小)上都适用。基于深度学习的方法则不需要对平流方程的依赖。通过大量的雷达观测数据训练这些模型,可以更好地模拟非线性降水现象,如对流启动和强降水。这类方法直接预测每个网格位置的降水率,模型已被开发用于确定性和概率性预报。目前的深度学习系统所发布的预报,在降水场越来越模糊的情况下表现出了不确定性,而且不包括小尺度天气模式。此外,现有方法侧重于特定地点的预测,而不是对整个降水场的概率预测,这使其无法在多个空间和时间集合中同时提供一致的预测结果,限制了实用性。为此,DeepMind使用深度生成模型(DGMR)为概率预报开发了一种观测驱动的方法。DGMR是学习数据概率分布的统计模型,可以从学习到的分布中轻松生成样本。由于生成模型从根本上是概率性的,可以从给定的历史雷达的条件分布中模拟许多样本,生成预测集合。此外,DGMR既能从观测数据中学习,又能表示多个空间和时间尺度上的不确定性。DeepMind使用生成模型的方法,根据过去的雷达,对未来的雷达进行详细和可信的预测。有了这样的方法,既可以准确地捕捉大规模的事件,同时也可以生成许多备选的降雨情景(称为集合预测),使降雨的不确定性得到探索。DeepMind的模型也十分擅长中到大雨事件的预测,与其他竞争方法相比有着明显的改进。DeepMind表示,在经过英国国家气象局(Met Office)的50多名专家气象学家进行了认知任务评估之后,与广泛使用的预测方法相比,在89%的情况下专家们会把DeepMind的方法评为首选。生成法(DGMR)比平流法(PySTEPS)更好地捕捉了环流、强度和结构,更准确地预测了东北地区的降雨和运动。与确定性的深度学习方法(UNet)不同,DGMR还产生了尖锐的预测。生成法(DGMR)与平流法(PySTEPS)相比,平衡了降水的强度和范围,平流法的强度往往太高,而且不像确定性的深度学习方法(UNet)那样模糊不清。在给定的时间点T,使用基于雷达的地表降水估计值XT,在给定的M个过去的雷达场,预测N个未来的雷达场,潜在的随机向量Z和参数θ,方程为:对潜在变量的整合确保了模型做出的预测在空间上具有依赖性。学习是在用于降水预测的条件生成对抗网络(GAN)的算法框架内进行的。四个连续的雷达观测数据(之前的20分钟)被用作发生器的背景,对未来降水的多个实现进行采样,每个实现为18帧(90分钟)。DGMR能更好地预测较长时段的空间覆盖和对流,同时不会高估强度a. 模型结构示意图;b. 预测的地理背景;c. 不同模型在T+30、T+60和T+90分钟提前量的单一预测。学习由两个损失函数和一个正则化项驱动,通过比较真实的雷达观测数据和模型生成的数据来指导参数调整。第一个损失是由空间判别器定义的,它是一个卷积神经网络,用于区分单个观察到的雷达场和生成的雷达场,确保空间一致性并阻止模糊的预测。第二个损失是由时间判别器定义的,它是一个三维(3D)卷积神经网络,用于区分观察到的和生成的雷达序列,施加时间上的一致性并惩罚跳跃的预测。为了提高准确性,DeepMind引入了一个正则化项,从而惩罚真实雷达序列和模型预测平均值(用多个样本计算)之间的网格单元分辨率的偏差。最后,DeepMind为生成器引入了一个完全卷积的潜在模块,允许对大于训练时使用的大小的降水场进行预测,同时保持时空一致性。DeepMind在2016至2018年间英国雷达记录的降水事件的大型数据集上训练其DGM。训练完成后,它可以在一秒钟内提供预报,并在单个NVIDIA V100 GPU上运行。与其他流行的预报方法(包括机器学习模型)相比,DeepMind的DGM在长达1,536公里乘1,280公里的区域产生了更真实和一致的预测,提前期为5至90分钟。在使用CSI进行比较时,所有三个深度学习系统产生的预测都比PySTEPS的基线明显更准确。使用交替的星期作为独立单位的配对置换测试来评估统计学意义,发现DGMR与PySTEPS相比,在所有的降水阈值上都具有更好的效果(n=26,P<10-4)。a. 20个样本的CSI,降水阈值为1毫米/小时(左)、4毫米/小时(中)和8毫米/小时(右);b. 所有模式在T + 30分钟(左)和T + 90分钟(中和右)的2019年预测的径向平均功率谱密度。从上图中的b可以看到,DGMR和PySTEPS的光谱特征都与观测结果相吻合,但轴向注意力和UNet模式产生的预报具有中、小尺度的降水变化,并随着提前期的增加而减少。由于它们产生了模糊的预测,轴向注意力和UNet nowcasts的有效分辨率远远低于数据的1公里×1公里分辨率。在T+90分钟时,UNet的有效分辨率为32公里,轴向注意力的有效分辨率为16公里,降低了这些预报对气象学家的价值。对于概率验证来说,下图中b显示了平均和最大降水率聚集在越来越大的区域31的CRPS。当在网格分辨率水平上测量时,DGMR、PySTEPS和轴向注意力的表现相似。随着空间聚集的增加,DGMR和PySTEPS提供了持续的强大性能,其中DGMR在最大降水上表现更好。轴向注意力模型对于较大的聚集区来说明显较差,在规模为4及以上的情况下,其性能低于所有其他方法。使用交替的星期作为独立单位,成对的置换检验表明,DGMR和轴向注意力温度选择之间的性能差异是显著的。网格分辨率(左)、4公里集合(中)和16公里集合(右)的CRPS得分a. 使用平均雨量的集合CRPS;b. 使用最大雨量的集合CRPS。与其他方法相比,生成式方法优于(在CSI上)现有的STEPS预测方法,提供的概率预测更加准确,并且在空间和时间尺度上保留了降水的统计特性,而其他深度学习方法是以它们为代价的。此外,DeepMind还在经济和认知方面进行了分析,结果表明DGMR可以让决策价值得到提高。虚线表示Clopper-Pearson的95%置信区间。气象学家明显倾向于DGMR而不是其他方法。然而,除了这50位专家以外,其他科学家并没有被这些结果说服。雷丁大学的气象学家Peter Clark说:「我在这里没有看到预测方面的任何革命。依靠主观评价来证明模型的有效性只能使让人感到困惑。」此外,他还表示:「我仍然惊讶于他们没有选择使用一个客观的分数。关于如何进行评估,甚至是实际评估的内容,几乎没有详细说明。」在论文中,DeepMind也并没有给出新模型与现有模型的准确性相比具体提升的数据。对此,DeepMind的高级科学家和论文作者Shakir Mohamed表示,「我们想采取这种更加谨慎的方法,而不是报告一个数字。」同样是来自雷丁大学的气象学家Rob Thompson则说:「与其说DeepMind的研究完全颠覆了我们所知道的雨水预报,不如说它只是提供了一种不同的方法。它的表现与当前其他尖端类型的模型类似,可能稍微好一点,但并没有领先很多,」DeepMind的成员说,目前还没有任何立即投入使用的计划,但团队希望最终能够利用模型为今后的天气报告提供真实的信息。这倒不用担心,DeepMind的研究科学家同时也是论文的作者Suman Ravuri表示,人工智能不会在这个领域取代人类:「天气预测需要专家和人类参与其中,以确保在预测方面的理解是合理的,然后将其传达给公众。」
参考资料:
https://www.nature.com/articles/s41586-021-03854-z
https://deepmind.com/blog/article/nowcasting
https://www.wired.co.uk/article/deepmind-weather-nowcasting