应用机器学习方法,预测高铁列车晚点的新研究
轨道交通控制与安全国家重点实验室(北京交通大学)、北京交通大学交通运输学院、中国铁路沈阳局集团有限公司的研究人员张朴、孟令云、李宝旭,在2019年《电气技术》增刊1上撰文(论文标题为“基于支持向量机的高速铁路列车晚点演化预测”),采用机器学习的理论与方法,建立了基于支持向量机的区间单车次高铁列车晚点预测模型,在此基础上进一步建立了区间全车次高铁列车晚点预测模型,并以京沪高铁线路为背景,选取2017年10—12月蚌埠南—津沪线路区间的列车运行实绩数据对模型的有效性进行实例验证。
本文对原始数据进行了标准化、过采样的预处理,对晚点时长进行离散化处理,构造了“晚点混淆矩阵”对预测模型进行评价,结果表明,晚点预测模型对高铁列车的晚点范围有理想的预测效果。本文是机器学习理论在高速铁路列车晚点演化研究领域中的一次尝试,表明机器学习方法在高铁列车晚点预测上具有一定的可行性。
铁路列车在其运行的全过程中,不可避免地受到来自铁路系统内部与外部的一些扰动,这些扰动可能源于设备故障、交通事故、极端天气等,也可能源于非预期车流或考虑不周的调度指挥。扰动对列车运行造成的影响是一个不断累积的过程,铺画合理的运行图是在一些区间、站点设有一定的冗余时间,以吸收和缓解扰动对列车运行造成的影响。而无法通过冗余时间吸收的扰动将持续累加,最终导致列车无法按图准时行车,因此,列车晚点现象产生。
列车在发生晚点后继续行驶,部分晚点现象可以通过区间赶点、压缩停站时间等方式得到改善甚至是消除;另一些没能得到缓解的晚点可能会一直持续,甚至因后续的扰动影响而进一步恶化;还有一些晚点是在列车之间的相互影响作用下于路网中传播。
晚点演化就是在列车运行过程中,晚点产生、传播、持续、恶化、恢复的全过程。高速铁路列车具有旅速高、开行频次多、开行密度大的特点,这意味着晚点一旦发生,就会产生复杂而剧烈的演化,故传统的理论方法难以对其进行有效的研究。
既有的高速铁路列车晚点研究主要围绕晚点分布、晚点仿真生成、晚点传播链构建、晚点恢复等方面展开。
在晚点分布方面,刘岩等分析了列车实际区间运行时分、列车区间运行时分、停站时分与列车晚点之间的关系。Briggs等基于英国铁路列车运行数据进行了晚点分布的统计,建立了全部晚点的q指数分布模型。刘健等以京沪高速铁路实绩数据为基础进行列车运行仿真,得到了突发事件的发生概率。Yuan等构建了列车晚点传播模型,通过理论推导预测列车在车站的到达时间分布。Xu等基于列车运行实绩数据,绘制了高速列车晚点的分布曲线,但其研究并未建立起致因—初始晚点时长的相关模型。庄河等基于广铁集团高速列车运行实绩,研究不同致因情况下初始晚点时长的分布模型。
有关晚点传播过程、列车延误模型、列车晚点恢复方面的研究尚且没有一套完整的理论体系,孟令云等提出一种基于列车运行实绩数据挖掘的列车晚点传播过程构建方法。姜雯、李晓娟等将高速铁路列车运行过程作为离散事件系统,并采用极大代数的方法建立列车延误仿真模型。黄平等提出基于列车运行实绩的列车晚点恢复模型,分析高速列车初始晚点恢复的影响因素,建立了初始晚点恢复的随机森林模型。
从已有研究分析来看,基于列车运行实绩进行高速铁路晚点演化相关问题的研究尚不成熟,虽然这些研究均指出基于高速铁路列车运行实绩数据对于运输组织优化问题具有重要的作用,但少有对晚点演化过程全面整体的认知,关于高速铁路晚点演化预测、规律的研究暂时处于起步阶段。
近几十年来,随着计算机性能飞跃般地提升,人类收集、存储、传输、处理数据的能力也取得了里程碑式的突破,对数据进行深层挖掘、分析利用的机器学习算法也受到了前所未有的广泛关注与应用。机器学习算法通过对大数据进行预处理、降维、特征提取与关联,可以揭示深藏于数据之中的机理与规律,从而完成对现实具体问题的指导。
随着铁路信息化发展,列车运行实绩数据的收集工作日益完善。高速铁路有着更加先进、健全的信息管理系统,列车运行信息的收集也更加精细化与标准化。庞大的列车运行实绩数据成为了分析列车运行状况、线路基础设施运用状况的宝贵资源,高铁列车晚点演化的过程及其深层次的演化机理也蕴藏其中。
为此,本文尝试构建基于机器学习的晚点演化预测模型,通过对高铁列车运行实绩数据的特征提取与处理,结合表现效果好的支持向量机算法,达到对晚点演化进行预测的目标。
本文借助机器学习的理论与方法,对京沪高铁列车运行实绩数据进行了样本提取、特征标准化、过采样、晚点标签离散化等处理;结合晚点分类构建了混淆矩阵,并给出一些评价指标;建立了基于支持向量机的单车次列车晚点预测模型和区间全车次列车晚点预测模型并编程实现。通过构造评价指标评估了模型的有效性,结果表明,模型对高铁列车的晚点范围有理想的预测结果。
本文是机器学习理论迁移至高速铁路列车晚点研究领域的一次尝试,实例证明了机器学习方法具有一定的可行性。