基于时空深度混合模型的台风预测技术

参考文献:Chen Rui, Wang Xiang, Zhang Weimin, et al. A hybrid CNN-LSTM model for typhoon formation forecasting[J]. GeoInformatica, 2019,23(3): 375-396.

作者:陈睿、汪祥、张卫民、朱啸宇、李爱平、杨超

一、研究背景

台风作为一种极端天气事件,不仅会影响海上活动,而且会给沿海地区人民的生活和城市经济造成重大损失。因此,台风研究和预测一直是各个沿海国家关注的重点。台风预测一般是对台风的强度和路径进行预测,近年来,路径预测取得了比较大的进展,而台风强度预测却仍然没有太大的改进。为了提供台风灾害的早期预警,准确的台风形成、强度、路径预测方法一直是气象领域的关注重点。

二、研究现状及问题

由于台风系统的复杂性和多变性,现有的台风预测方法通常很难对台风做到准确的预测。现有台风预测方法一般分为三类:

第一类是基于数值模式的预测方法,如基于区域模式Hurricane Weather and Research Forecasting Model(HWRF),全球模式ECMWF Global Model(EMX)、集成模式(GFS)预测方法等;

第二类是基于统计分析的预测方法,比如气候持续模型Climatology and Persistence Model(CILIEPER5)、统计动力模型Statistical Hurricane Intensity Prediction Scheme(SHIPS)等;

第三类则是基于机器学习的预测方法,比如逻辑回归Logistic Regression (LR) ,以及人工神经网络Artificial Neural Network(ANN)等。

基于数值模式的预测方法从大气的物理背景场出发,通过求解流体动力学方程来预测台风的活动。而现有的基于统计分析和机器学习的预测方法一般是找出影响台风活动过程中的一些重要变量,然后发掘这些变量与台风形成之间的相关性,以对台风形成以及形成后的路径和强度进行预测。对于路径和强度的预测,现在比较常用的方法是统计-动力方法,该方法以数值天气模式为依托,使用模式运算得出的环境场参量建立统计预测模型。

现有的台风预测方法虽然对于当前的台风预测有不可忽视的作用,但仍然存在很多不足之处。数值模式方法参数化方案和初始条件的不同会对预测的准确度有很大的影响,使得预测结果存在不稳定性。现有的统计方法难以考虑各变量之间的非线性关系,机器学习方法未考虑到各变量的时空相关性,使得预测的准确度有所降低。因此这几种方法均难以取得比较稳定且准确度较高的预测效果。此外,现有的方法基本上着重于台风影响变量的选择,并未对模型有较深层次的改进,过于简单的模型可能难以刻画台风活动的复杂过程。因此如何提供一个高效、易于执行且准确度高的台风预测方法是本领域技术人员极为关注的技术问题。

三、思路和方法

第一步,在现有数值预报、统计学习以及机器学习台风预测方法的基础上,为弥补其计算代价过大、理论机制不明确、未考虑预测变量的复杂关系等不足之处,结合台风数据和环境大气海洋数据的时空特性,将台风预测问题定义为了一个时空变量序列预测问题。

第二步,针对被重新定义的台风预测问题,结合深度学习的优势,提出了一个基于深度学习的解决思路,即本文的时空深度混合台风预测模型。其主要思想是利用历史大气海洋的空间变量数据以及台风最佳路径资料,通过3DCNN(3-Dimensional Convolutional Neural Network)进行大气变量的三维空间特征学习,2DCNN(2-Dimensional Convolutional Neural Network)进行海表变量的二维空间特征,LSTM(Long Short Term Network)进行台风从形成之前到形成之后的时序特征学习,从而达到预测台风的形成以及形成后强度、路径等参量的目的。该模型可以根据不同的预测目标,选择不同的输入、输出(标签)数据集进行模型的训练学习,进而预测不同的对象。

第三步,具体应用是从台风预测中的重点以及难点问题-台风形成及台风强度预测出发,根据本文提出的时空深度混合模型,进行了台风形成与台风强度的预测实验分析以及模型训练过程的重要参数分析。实验过程中工作主要集中于实验数据集的构造、模型中网络的设计与实现,参数的调整以及和与其它方法的对比分析。

本文的核心方法有两点:

(1)将台风预测问题定义为了一个时空序列预测问题,即:

如图1所示,其中是从当前预测时刻开始6k小时后的预测对象(如:是否形成,强度值等),是通过历史数据学习到的模型,是当前预测时刻热带风暴或者台风中心周围环境变量的空间网格数据集(包括大气变量和海洋变量),是预测时刻之前小时环境变量的网格数据集。

图1 台风预测变量的时空结构示意图

(2)针对上述的时空序列台风预测问题,提出了一个时空深度混合台风预测模型,如图2 所示。由于任意时刻热带风暴或台风周围的大气变量都是M×M×L×N规模的网格数据集,故可作为3DCNN模块输入的4D张量。任意时刻热带风暴或台风周围的海洋变量是M×M×O规模的网格数据集,故可作为2DCNN模块输入的3D张量。该模型在“connection”部分拼接3DCNN和2DCNN输出的特征向量,其长度为K,并作为LSTM的输入。模型具体可以表示为:

其中,

图2 时空深度混合台风预测模型示意图

四、实验和结果

本文使用的是世界气象组织WMO版本的IBTrACS的热带气旋最佳路径数据集和ERA-Interim再分析数据集,时间范围为1979 ~ 2016年。其中选取的西太平洋台风数量为239个,热带风暴数量为211个;东太平洋台风数量为219个,热带风暴数量为220个;北大西洋台风数量为181个,热带风暴数量为186个。

台风中心环境变量网格选取的水平范围为4°×4°~20°×20°,大气变量为风的u 分量u 、风的v分量v、温度t、相对湿度rh和位势高度z,垂直方向压力层为1000/975/925/ 850/800/700/600/500/400/300/200/100hPa,海洋变量为海表温度SST。预测时长为24小时,回顾时长为6, 12, 18, 24小时。

对于台风形成预测,如下表1所示,通过不同海域及与不同机器学习算法模型的对比实验,可以发现本文模型在西太平洋区域准确率较高(85.2%),北大西洋略差 (75.9%),但相对于其他算法模型均有不同程度的提升。同样,对于台风强度预测,如下表2所示,通过与中国气象局CMA(China Meteorological Administration)和美国飓风中心NHC(National Hurricane center)的统计模型及数值模式预报结果进行对比,可以发现本文模型的强度预测误差在西太平洋(7.4 kt)和东太平洋(9.4 kt) 海域均优于现有常用的业务方法,但在北大西洋海域(9.4 kt)虽优于大多数方法,却略差于统计动力学模型-SHIPS (9.1kt)。

表1 台风形成预测实验结果对比

表2 台风强度预测实验结果对比

(0)

相关推荐