基于卷积神经网络的列控车载设备故障分类研究

车载设备是列车运行控制系统中重要的行车控制设备,是确保高速铁路安全运行的核心。车载设备运用至今,虽整体性能稳定,但使用过程中也发生了不少故障,严重干扰运输组织和秩序。车载设备故障诊断是防止列车故障、保证安全运行的重要部分,并且为维修人员提供及时的维修信息,压缩故障延时。

“会计学基础”是一门理论性与实践性相统一的学科。但是,从”会计学基础”的教学经验来看,传统的”会计学基础”的教学方式主要以理论为主,教学方式主要为“灌输式”教学,而教学目标则侧重于传授会计学的基本原理,因此在一定程度上与现代企业的实际经济活动相脱节。同时在课堂教学中,案例教学和实践教学较少。基于此种模式培养出的学生,很难使其对自己所学的知识以及未来将要从事的会计职业有较为系统和全面的认识。因此,作为专业课教师应该怎样才能将课程讲得深入浅出?显然,仅用传统“灌输式”的教学方法有着很大的局限性。而案例教学法作为一种较新的教学方法,对于提高教学效果具有重要的辅助作用。

车载设备运行过程中,通过车载安全计算机记录了大量的应用事件日志(Application Event Log,AElog),可以反映车载某一时刻的状态信息,AElog数据由非结构化文本形式记录,包括各模块正常或异常工作时的标志性语句。技术员通过人工分析AElog数据来判别车载设备的运行情况,分析难度大,诊断效率低。为满足现代化铁路高速运行的需求,利用机器学习算法实现列控车载设备智能故障分类是当前急需解决的问题。

车载设备包含的模块众多,故障机理不同,各模块故障出现的概率不平衡。同时,正常工作的记录数据远大于故障数据,也存在正常与故障数据间不平衡的问题。因此须针对数据的不平衡性,研究有效的列控车载故障诊断模型。

目前,车载故障诊断主要基于数据驱动的智能分类技术[1-2]。通过人工进行故障文本特征选择,再输入分类模型进行分类,分类模型主要包括贝叶斯网络、逻辑回归、支持向量机等[3]。这些方法存在3个问题:①,依赖特征工程,例如文献[4]利用向量空间模型表征列控车载记录的文本数据,通过特征词选择与权值分配实现文本向量化转换,这种文本表示存在明显的表示稀疏问题,此类数据输入分类器,将面临维灾难,同时语义特征也无法被描述;②多数机器学习方法同等地对待数据集中的所有样本,以提升分类器总体分类精度为目标,适用于分布较均匀的数据集[5];③传统分类算法的优点是模型复杂度低,训练速度相对较快,可解释性较强。但由于模型层次较浅,不能实现文本特征的自动提取,分类效果受人工特征选择的影响。基于以上问题,并结合车载AElog数据的实际特点,本文提出针对性的模型对其改进。

深度学习[6]概念被提出后,迅速成为研究热点,该方法改变了先进行特征选择,再输入分类器训练的传统模式,实现了特征学习与提取。Mikolov团队[7-8]设计出包含CBOW和Skip-gram两种语言模型的词向量生成工具Word2vec,让Hinton[9]提出的文本分布式表示得以广泛应用。文本分布式表示可以通过训练语言模型,将词语映射成一个维度小、数值稠密的实数向量,能刻画词语的语义和语法关系,同时具备良好的计算性,避免了人工选择特征的困难,解决了向量稀疏的问题。借助词向量,深度学习在自然语言处理的典型任务中取得优异的性能[10-11]。

卷积神经网络(Convolutional Neural Network,CNN)能够从词向量表示的文本中获得局部敏感信息,提取高层次文本特征,缓解了特征工程的工作量,有效用于文本分类问题[12]。文献[13]利用CNN对短文本进行建模,并在7组公开数据集上进行对比试验,证明CNN在文本分类任务中的有效性,同时也表明了词向量对提升系统性能的重要意义。文献[14]提出将基于字符级的CNN模型用于文本分类,该模型适用于多种语言,性能优于词袋模型等传统模型以及循环网络模型。总的来看,借助词向量和基于深度学习的文本分类方法在多数分类任务中取得了比以往研究更好的效果。但多数用于文本分类的CNN没有考虑到样本不均衡的问题,造成多数样本类的分类精度高,而少数样本类分类精度低,直接影响分类效果。

不平衡分类问题的研究主要包括基于数据和基于算法的两种方法[15]。数据层面利用欠采样对多数类样本进行约简或是利用过采样对少数类样本自动生成,通过改变数据集中样本的分布来降低数据间的不平衡程度。算法层面通过改进模型的损失函数或调整模型结构使之更倾向于少数类样本。

2016年济南大学与锐捷网络就“计算机网络”课程进行产学合作。同年,锐捷网络获得教育部高等教育司(以下简称“高教司”)颁发的“2016年产学合作协同育人项目合作伙伴奖”。学校对“计算机网络”课程进行教学改革,进一步推进产学融合与校企合作,为国家新产业、新业态、新经济发展培养新型人才提供教育教学服务。

借鉴前人的研究经验,本文进一步探索文本结构化处理与非均衡数据分类在车载设备记录数据中的应用,解决列控车载故障诊断问题。以车载安全计算机记录的AElog数据为依据,分析故障模式;结合AElog数据特点,利用语言模型训练词向量来表示文本语义特征,实现文本的向量转化;采用CNN进行文本深层次特征提取,用于故障分类;针对样本不均衡问题,通过合成少数类过采样方法(Synthetic Minority Over-sampling Technique,SMOTE)随机生成少数类文本向量数据,并在卷积神经网络的训练阶段采用焦点损失函数对样本加权,进一步减小不均衡样本对分类效果造成的影响。为验证模型的有效性,选取某铁路局提供的车载AElog数据进行试验分析,通过精确率、召回率、G-mean和F1-Measure等指标对构建的基于卷积神经网络的模型进行评价,验证该模型在列控车载故障诊断中的可行性与优越性。

1 列控车载设备记录数据

我国CTCS-3级列控车载设备硬件采用分布式结构设计,双系冷备,核心控制模块采用“单硬件双软件”的设计结构。CTCS3-300T型列控车载设备主要由CTCS-3控制单元ATPCU、CTCS-2控制单元C2CU、测速测距单元SDU、网关TSG、安全数字输入输出单元VDX、安全无线传输单元STU-V、司法记录单元JRU、应答器信息接收模块BTM+CAU、轨道电路信息接收单元TCR、人机界面DMI等组成[16]。

ATPCU是CTCS-3核心计算控制单元,在每个ATPCU单元内部均有一块非易失存储区,在列车运行过程中,可实时记录车载各个模块正常或异常工作时的标志性语句,即AElog数据。通过查看这些文本型数据,可以分析出相关模块的工作状态,也能根据故障语句分析故障原因。记录内容通常包括记录时间、报告此记录的文件、文件中的行数、任务名称、上电时间、语句编码、模块正常工作或故障时的标志性语句等。图1为某次列车运行结束后AElog记录的实例,其中记录了BTM工作异常导致的BTM端口无效的故障,文本中“Balise Port invalid”“StatusPort invalid in BTM”等语句是关注的重点。从图1中可以看出,这些语句按时间顺序逐条记录,由大量长短不一的英文短文本组成,故障或正常语句多样,包含了重要的故障信息,如故障发生的具体模块、具体现象等,是判断车载故障的主要依据。

图1 AElog数据(部分)记录

本文以CTCS3-300T型车载设备中的列车接口相关故障和BTM相关故障为例,以AElog记录的文本数据为基础,挖掘具体故障信息,实现故障的自动分类。将这两种故障类型进行编号,见表1。加入正常状态共13种模式。

表1 故障类型

相关模块编号故障类型BTM相关故障F1BTM端口无效F2启机BSA错误F3运行时BSA错误F4永久性BSA错误F5BTM例行测试超时F6全零应答器列车接口相关故障F7VDX报文无效F8VDX端口无效F9紧急制动继电器故障F10旁路继电器故障F11制动反馈继电器故障F12方向继电器故障

2 基于卷积神经网络的列控车载设备故障分类模型

基于CNN的车载设备故障分类模型见图2,主要包括3部分:文本预处理、利用CNN实现特征学习与分类、对CNN进行训练。在预处理阶段,通过训练CBOW模型将AElog文本转化为计算机可识别的向量形式。针对转换后的文本向量矩阵,利用SMOTE方法对少数类数据自动生成,降低数据间的不平衡程度。再经CNN的卷积与池化操作,实现文本特征的自动提取,在输出层利用Softmax实现分类。训练时通过改进CNN模型的损失函数,使模型更加关注难分样本,进一步提升分类器对不平衡数据的分类能力。

图2 列控车载设备故障分类模型结构

2.1 文本预处理

文本需要通过预处理转化为计算机可识别的数字形式。数字化的过程需最大程度保留文本的语义特征,减少语义信息的损失。针对车载记录数据的特点,AElog数据的预处理包含标志性语句分段、分词、向量表示和少数类样本自动生成等,主要步骤如下:

Step1 AElog文件处理:由于列车每趟运行后,记录数据多达数百条,为提高诊断精度,将对数据统一模式,提取标志性语句,以AElog中的提示指令为节点对数据进行分段,则每段包含1~7条标志性语句。

Step2 分词:以词为单位对其进行分词处理,相较于中文文本,英文文本以空格为依据进行分词,结合AElog数据的特点,下划线也作为分词依据。为节省存储空间、提高搜索效率,需过滤停用词和符号。部分车载词典和分词结果见表2和表3。

表2 部分车载词典

列控车载故障词典state,BTM,StatusPort,Status,Telegram,invalid,data,port,inactive,Proto-col,active,Temporary,Two,Missed,BSA,permanent,

表3 部分故障说明

故障分类故障语句分词结果F1BTM1+Status+Telegram+invalid, +StatusPort +invalid+BTM1, +No+valid+data+port+1, +Balise +Port1+invalidF4BSA+permanent+error, +BSA+Permanent+Error+ active+BTM1F7BI+H+A+VDX1+telegram+state+4+invalid, +Vehicle+Ready+Active+ Lifesign+8+OK, +BI+H+A+Telegram+from+VDX1+is+not+validF10Bypass+failed, +BI+H+VDX2+IN2+I/O+failed, +VDX+bypass+port+switched+to+invalid

Step3 生成词向量词典:文本分布式表示的优势在于可以短时间内充分利用文本的上下文信息训练语言模型,将词语转化为向量空间中同一维度的稠密向量,解决向量稀疏问题;且向量空间的相似度可以表示文本语义的相似度,修正词与词之间完全正交的不恰当结果。参考Word2vec中基于Hierarchical Softmax算法的CBOW模型,以分词后的车载记录数据作为训练语料库C。算法主要思想是通过当前任意词的上下文Context(w)来预测当前词w,优化目标函数为

特别地,当△ABC为等边三角形时,点P为△ABC内的任一点,且点P到△ABC三个顶点A、B、C的距离分别为a、b、c,满足条件asinα+csinγ>bsinβ、bsinβ+csinγ>asinα、asinα+bsinβ>csinγ.易知:

风力发电机组中的齿轮箱是一个重要的机械部件,其主要功能是将风轮在风力作用下所产生的动力传递给发电机,并使其得到相应的转速。风轮的转速很低,远达不到高速发电机发电的要求,必须通过齿轮箱的增速作用来实现风力发电。

(1)

CBOW模型通过输入当前词上下文的词向量,经投影层对所有词向量进行累加,在输出层利用Huffman树实现目标优化。Huffman树以语料库中出现的词作为叶子节点,对语料库中任意词w,Huffman树都存在一条从根节点到词w对应的节点路径,将路径中的每个分支看成一次二分类,每次分类就产生一个概率,将这些概率连乘起来就是所需的P(w|Context(w))。之后用随机梯度上升法将此函数最大化,直至训练结果达到可以接受的误差范围。训练所得词语的语义相似度与词向量的余弦距离成正比。

Step4 文本向量化:每类车载正常或故障状态均由1~7个短句构成的文本共同实现判别,按照短句中单词的顺序从词典中取出对应的词向量,使文本转化为向量矩阵。为解决各组文本数据长度不统一的问题,对样本中每组文本进行词数统计,选择最高词数作为文本向量维度,其他长度不足的文本用0补齐。

Step5 由于车载记录数据中正常与故障数据间分布不均匀,不利于分类器的学习,因此采用SMOTE方法减少非均衡样本对诊断精度的影响。经过上述文本转化后获得文本分布式表示,该表示能捕捉原始文本中的语义信息,同一种类别的分布式表示向量的类内聚合度更好,适合进行过采样[17]。SMOTE算法是利用少数类样本控制人工样本的生成与分布,以此降低数据的过度偏斜程度。其基本原理是对每一个少数类样本x,从其k个近邻的同类样本中随机选择若干个样本,对每一个近邻

通过随机线性插值,构造出新的少数类样本xnew为

(2)

式中:rand(0,1)为0到1之间的随机数。SMOTE算法相对于随机复制过采样法,可以有效防止过拟合,提高分类器性能。在利用SMOTE算法获得新数据集的基础上,建立基于CNN的特征提取与故障分类模型。

2.2 基于卷积神经网络的故障分类

文献[13]利用卷积神经网络对文本进行建模,完成句子级的分类任务。本文在此网络结构上进行拓展研究,结合车载记录数据特点,构建具有多尺度卷积核和批归一化处理层的卷积神经网络分类模型。

2.2.1 网络概况

网络结构如图2卷积神经网络部分所示。

第一部分为输入层,用于输入文本向量矩阵M∈RS×n,其中行数S为文本段中最高词数,列数n为词向量维度。

长庆石化公司信息门户系统建成应用以来,用户数量和数据量逐年上升,在生产、经营、管理等方面发挥着日益重要的作用。截至2010年6月,主门户的日访问量接近800次/日,数据量为200 GB,门户文档库上传32 400篇 /年,其平均每日RPS为4 800次,高峰段的为1 800次。

第二部分为卷积及池化层,卷积层通过卷积窗口与输入层的局部区域连接。设卷积窗口的权值矩阵为W∈Rh×n,h为卷积窗口的宽度,n为矩阵的列数,且与M的列数相同,卷积窗与输入层由上到下滑动做卷积运算,对输入进行分层特征提取,所得卷积结果为

Ci=g(w·Mi:i+h-1+bi)

(3)

式中:i=1,2,…,s-h+1;Mi:i+h-1为由第i个词到第i+h-1个词组成的连续文本段;bi为偏置项;g(·)为不饱和非线性函数ReLU,此函数能解决梯度爆炸/梯度消失等问题,同时能够加快收敛速度[18]。将所获得的Ci依次排列就构成卷积层的向量C∈RS-h+1。

由于车载记录的故障文本长短变化大,为更全面地提取特征,本文选用3种宽度的卷积窗口以获取不同词数级别的语义特征。

在卷积之后,通过池化操作聚合信息,减少神经元数目,降低特征维数,实现特征的进一步提取。本文采用最大池化法来获取全局特征向量。池化结果为

Oj=max{C}

(4)

式中:j=1,2,…,t,t为卷积窗口总数。将Oj依次排列就构成池化层向量O∈Rt。

第三部分是分类层。经过卷积与池化操作,已经提取出所需的特征向量,下一步是实现分类。将池化层的输出经压平(Flatten)层压为1维向量,经全连接层整合局部信息,之后送入分类器。为提升网络性能,本层的激励函数也采用ReLU函数。在输出层利用Softmax逻辑回归实现分类。

2.2.2 批归一化处理

在神经网络训练过程中,各层之间参数变化会引起数据分布发生变化,出现梯度弥散、影响网络收敛速度等问题,为减少内部协变量迁移(Internal Covariate Shift)的影响[19],本模型中在两处加入批归一化BN(Batch Normalization)处理:①在卷积运算后加入归一化层,再进行激活和池化运算;②在分类层计算激活值前加入归一化层。相较于未归一化处理的网络输入是{x1,…,xm},该批次样本数量为r,处理后的输出数据为{y1,…,ym},算法过程如下,计算输入样本的均值μ与方差σ分别为

(5)

(6)

对该批次样本数据xi进行批归一化处理,得到均值为0,方差为1的数据

(7)

式中:ε为一个常量。

微生态制剂源自于微生态学原理学,其具有保护或调节微生态平衡的功能,通过对宿主产生益生菌或者通过促进有益物质生成而制备成的制剂,主要起到预防、调节和治疗疾病的作用。平板菌落计数法是将待测样品经过适当稀释,将稀释后的样品在一定条件下进行培养,培养后得到的样品中所含菌落的数量,在一般情况下认为将一个肉眼直观可以看见的菌落代表一个单细胞。选择一个合适的稀释度并乘以相应的稀释倍数就可以比较准确地获得样品中微生物的具体数量。平板菌落计数法以其具有良好的重复性,并可以相对准确地体现样品中活菌数量的优点,成为了如今我国卫生标准规定所认定可行的方法,并且在食品药品研究领域得到了广泛的应用。

为了解决在归一化处理后带来的数据分布特征被破坏的问题,引入参数α和β对归一化后的数据进行性重构,恢复原始的特征分布。

(8)

批归一化处理包括对输入进行归一化以及对归一化后的数据重构,进行尺度不变的平移变换。

2.2.3 模型训练

从近代中国印刷业的发祥地,到建国初期援建内陆印刷业的主力省份,现如今数一数二的综合性印刷大省,有着深厚底蕴的上海印刷,不论过去还是现在,一直扮演着中国印刷业排头兵的角色。那么未来,站在制高点上的上海印刷又该如何打造属于自己的特色名片?李新立给出了自己的思考。

训练多分类卷积神经网络模型时,常选用标准的交叉熵损失函数CE为

(9)

式中:D为训练样本数;C为目标分类数;

为实际类别;pij为预测类别。交叉熵损失函数对所有样本平等对待,从而导致多数类易分样本对误差损失值贡献大,主导梯度调节过程,使得样本类别不均衡时产生预测偏移,训练时难以学习到难分样本的判别特征。因此本文参考文献[20]用于目标检测问题的焦点损失函数,构造用于解决不均衡文本多分类问题的损失函数。

为控制不均衡类别对误差损失值的贡献程度,引入一个权重因子α,削弱大数量类别对误差损失值的影响。

(10)

当一个样本的预测概率越高,模型对该样本的识别能力越强,此类样本为易分样本,反之为难分样本。为区别易分/难分样本,以预测概率为基础引入一个动态调节的权重因子

是一个可调节的超参数。

与式(10)结合,得到能调整非均衡和难易分类样本的多类别焦点损失函数FL为

(11)

本文采用反向传播算法通过上述定义的多类别焦点损失函数训练卷积神经网络,并对α和γ的取值进行实验,根据Adam优化算法进行梯度更新。

3 试验与分析

3.1 试验数据与评价指标

为研究本文提出的列控车载记录数据分类模型对故障的分类效果,根据某铁路局电务段提供的2017年8月至2018年12月的AElog文件,选取其中包含列车接口相关故障和BTM相关故障的文件,文件中包含正常运行时的数据和故障时出现的表1所示的12种故障数据。通过对AElog文件进行预处理,共得到2 450段包含正常或故障标志性语句的文本段,并对每段样本进行分类标注。通过Word2vec的CBOW模型进行无监督训练获得词向量词典,其中窗口宽度(Window)设置为5,词向量维度为300。构建图2所示的包含一个卷积层和一个池化层的卷积神经网络,为获取丰富的特征信息,在卷积层设置多种窗口卷积核对输入矩阵进行卷积操作,其中卷积核窗口宽度分别为3、4、5,每组窗口个数均为200,卷积核函数选取ReLU函数。池化层利用最大池化操作进行特征压缩。CNN的迷你批处理尺寸设置为60,迭代次数为60,Adam学习速率0.001。每组试验均采用十折交叉的方式进行。

在非均衡数据分类中,用准确率不足以充分评价分类器性能的优劣,因此基于混淆矩阵,选取精确率Precision、召回率Recall、F1-Measure和G-mean等[21-23]同时作为非均衡分类器的评价指标。对于一个M分类问题的混淆矩阵见表4。

表4 混淆矩阵

类别分为1类分为2类…分为M类1类n11n12…n1M2类n21n22…n2M︙︙︙︙M类nM1nM2…nMM

矩阵中第i类被正确预测的样本个数为nii,nij为类别i被预测为类别j的样本个数,nji为类别j被预测为类别i的样本数。

补石,看起来和普通石头没什么两样,行家还是能分辨出来的。找到补石,便可将内力输进去,石头越好,内力储存的时日越久。

根据表4,可定义性能指标为

一直以来,我国的体育教育可能都不太被人们所重视,新课改中就要求中职院校在进行体育教育中必须要把学生的身心健康放在第一位,让学生在学习体育的过程中感受到快乐,明白锻炼身体的重要性,从而主动的去锻炼身体,重视起体育课来。但是由于各种原因,学生没有锻炼身体,好好上体育课的意识,在一些中职院校中,更是没有按规定完成体育课的教学任务。另一方面,教师也要在体育课程中重视学生的发展。毕竟体育教学对于学生的身体素质的提高十分的重要,学院应该高度重视体育课的进度,密切关注学生的身体健康。

(12)

(13)

(14)

(15)

试验处理平台为联想计算机,处理器为Intel(R) Core(TM) i5-7200,主频2.5 GHz,8 GB内存,120 GB固态硬盘,运行环境为Windows 10专业版64位。模型通过Keras框架实现,编程语言为Python 3.4。

3.2 试验参数设置与性能影响

3.2.1 卷积神经网络参数

[13] 费琅辑注 耿升等译,《阿拉伯波斯突厥人东方文献辑注》[M],北京:中华书局,1989年,P 192.

为验证卷积神经网络参数对模型故障分类效果的影响,本文针对词向量维度、卷积核窗口宽度以及每组卷积窗口数目3个因素设置对比试验,见表5。由表5可见,在网络模型其他参数不变时,相较于100和200维的词向量表示,在300维词向量表示下,各项性能指标均有提升。因为通过训练词向量,克服了稀疏表示中存在的维灾难,将词语间的词性和语义关系表示为词向量间的空间距离,维度更高的词向量可包含更丰富、全面的文本特征和语义信息,对模型的分类有积极的影响。但训练时间也同时增长,因为词向量维度的提升将导致模型中并行数据维度急剧上升。在词向量维度一致时,相较于两种单尺寸卷积核窗口,用多尺寸卷积窗口提取文本特征时,性能指标均有所提升,说明采用多尺寸卷积窗口提取特征时可适应包含不同词数级别的文本长度变化,能够更全面地提取特征。当模型每组卷积窗口数目增加到一定程度后,分类F1-Measure和G-mean等指标出现了波动。通过模型参数对故障分类性能影响的比较,可知当词向量维度为300维,卷积三种窗口宽度为3、4、5,每组卷积窗口数目为200时,车载设备故障分类效果最佳。

表5 卷积神经网络模型参数取值比较

词向量维度卷积窗口宽度每组窗口数目PrecisionRecallF1-MeasureG-mean平均单轮迭代训练时间/s30032000.868 80.795 70.830 70.850 527.630052000.870 60.808 80.838 60.857 049.21003,4,52000.869 30.799 40.832 90.851 736.22003,4,52000.870 90.810 90.839 90.860 374.93003,4,52000.873 20.827 10.849 50.869 4105.53003,4,51000.867 40.786 10.824 80.842 462.33003,4,53000.868 70.795 30.830 40.844 4147.1

3.2.2 焦点损失函数参数

焦点损失函数的核心是用一个合适的函数衡量不均衡类别间以及易分/难分样本间对总体误差损失的贡献,所以参数α和γ的取值尤为重要。本文对α和γ的取值对车载设备故障分类性能的影响进行测试,使用F1-Measure作为分类结果的评估指标,该指标综合考虑了分类精确率与召回率。测试结果见表6,当α=0.2,γ=0.5时,可以找到不均衡类别间以及易分/难分样本间的平衡点,此时F1-Measure值最高。

表6 焦点损失函数参数取值比较

αγF1-Measure0.20.40.839 20.20.50.849 50.20.70.832 30.250.50.839 20.50.50.807 60.51.00.800 50.52.00.794 7

因此,本文利用焦点损失函数训练模型,该方法能够降低不平衡、难分样本对模型训练的影响,使模型更加关注难分样本。

3.3 批归一化处理对分类性能的影响

为验证批归一化处理对本文提出的卷积神经网络在收敛速度及准确率上的影响,分别使用未加入BN层的CNN网络以及本文加入BN层的网络进行试验。两种网络在训练集上的损失值变化见图3,损失值越大,网络的预测值与真实值间的差距越大。从图3可以看出在训练阶段,加入BN层的网络比未加入BN层的网络损失值更小,且在训练初期,加入BN层的网络损失值下降速度更快,说明批归一化处理可以提升卷积神经网络的梯度下降过程的收敛速度。图4为两种网络在验证集上的准确率的变化趋势,加入BN层的网络性能稳定,提高了网络的泛化性,整个过程中分类准确率都高于未加入BN层的网络。

图3 训练损失值随迭代
次数变化曲线

图4 验证准确率随迭代次数
变化曲线

3.4 不同分类模型比较

为进一步验证本文模型对车载设备故障的分类性能,将其与其他分类模型进行对比,设定以经过CBOW模型训练所得的文本向量作为各模型的输入。在对比试验中分别验证SMOTE和焦点损失函数对卷积神经网络分类效果的影响,并与具有代表性的传统机器学习算法支持向量机(Support Vector Machine,SVM)进行对比。由于随机欠采样[15]也是数据层面处理不均衡分类的有效方法,因此也对其设置对比试验,不同分类方法比较见表7。

“神言”自然应该来自神。 那么,陀思妥耶夫斯基的这个“神言”或“神来之笔”,究竟是上帝(God,Бог)或诸神(gods, боги)赐予这位先知的呢,还是来自陀氏独特的思维方式或独特的灵感类型?罗扎诺夫并未止步于“先知”的描写,而是进一步追问陀氏艺术特性的形式根源,即陀氏灵感的特殊性。 罗扎诺夫在《托尔斯泰和陀思妥耶夫斯基论艺术》(Толстой и Достоевский об искусстве)一文中说:

基于上述理论和定义,在此给出集约范式的定义:集约范式是在某一特定工程技术领域中公认的一种模型。该模型能在最充分利用一切资源的基础上,集中合理地组织、运用人力与技术等资源要素,提高产品或系统的工作效益和效率,实现全生命周期费效比最佳化。

表7 不同分类方法比较

模型PrecisionRecallF1-MeasureG-mean本文模型(SMOTE-CNN-FL)0.873 20.827 10.849 50.869 4CNN-FL0.863 30.813 90.837 90.854 8SMOTE-CNN0.833 40.820 90.825 70.838 6CNN0.784 90.748 30.766 10.792 9SVM0.799 70.778 30.788 90.800 6SMOTE-SVM0.824 60.819 70.822 10.829 5欠采样-CNN-FL0.842 70.810 40.826 30.848 4

基于表7的统计结果,可以进行以下对比分析:

“教育部关于全面提高高等职业教育教学质量的若干意见”明确指出,课程建设与改革是提高教学质量的核心,也是教学改革的重点和难点。要建立突出职业能力培养的课程标准,规范课程教学的基本要求,提高课程教学质量。在教学活动中,要积极进行教学方法和手段的改革和探索,融“教、学、做”为一体,强化学生能力的培养。[1]

(1) 通过SMOTE方法对少数类样本自动生成,降低数据间不平衡程度,或者利用焦点损失函数训练模型,使模型倾向于少数类、难分样本,这两种方法都可以提升卷积神经网络的分类效果。且在最优参数条件下,焦点损失函数对模型的性能提升更多,表明焦点损失函数可以有效降低不平衡、难分样本对模型训练的影响。两种方式结合使用可以进一步提升卷积神经网络对车载故障的分类性能。

(2) 与传统机器学习分类方法SVM对比,本文模型在精确率Precision、召回率Recall、F1-Measure和G-mean等指标上均高于SVM。将SMOTE方法与SVM结合,分类效果得到提升,表明降低数据间的不平衡程度,有利于分类器的学习,但其分类效果不及SMOTE-CNN模型,说明由于CNN特征学习的作用,在处理车载记录数据时,能更加有效地从输入的文本向量矩阵中提取出有用信息,从而提高了模型的识别能力。

(3) 将随机欠采样方法与卷积神经网络结合,效果较SMOTE有差距,说明对多数类样本进行约简,虽然可以降低数据间的不平衡程度,提升模型的分类效果,但会造成多数类的样本信息损失,性能提升不理想。

4 结论

本文以列控车载安全计算机记录的AElog数据为基础,分析列控车载各模块故障形式,并对其文本数据进行预处理,利用CBOW模型实现文本分布式表示,完成文本数据的结构转化。通过SMOTE方法实现车载记录中少数类数据的自动生成,降低数据间的不平衡程度。以卷积神经网络为基础,结合AElog数据中各模块正常或异常工作时的标志性语句长短不一的特点,利用多尺寸卷积网络模型更全面地提取文本特征,避免了传统分类方法中人工特征选择的过程;加入批归一化层提高网络的泛化性,加快网络收敛,提升分类准确率;利用焦点损失函数训练模型,进一步避免不平衡、难分样本对模型训练的影响。通过对某铁路局列控车载实际运行数据的试验,将本文模型与其他模型进行对比,验证本文模型在分类精确率Precision、召回率Recall、F1-Measure和G-mean等指标上的优势。也为实现高速铁路列控车载设备故障诊断提供理论依据和使用价值。

参考文献:

[1] 赵阳,徐田华.基于文本挖掘的高铁信号系统车载设备故障诊断[J].铁道学报,2015,37(8):53-59.

ZHAO Yang, XU Tianhua. Fault Diagnosis of On-board Equipment of High-speed Railway Signal System Based on Text Mining [J]. Journal of the China Railway Society, 2015, 37 (8): 53-59.

[2] 梁潇,王海峰,郭进,等.基于贝叶斯网络的列控车载设备故障诊断方法[J].铁道学报,2017,39(8):93-100.

LIANG Xiao, WANG Haifeng, GUO Jin, et al. Fault Diagnosis Method for On-board Equipment of Train Control System Based on Bayesian Network [J]. Journal of the China Railway Society, 2017, 39 (8): 93-100.

[3] 杨连报,李平,薛蕊,等.基于不平衡文本数据挖掘的铁路信号设备故障智能分类[J].铁道学报,2018,40(2):59-66.

YANG Lianbao, LI Ping, XUE Rui, et al. Intelligent Classification of Railway Signal Equipment Faults Based on Unbalanced Text Data Mining [J]. Journal of the China Railway Society, 2018, 40 (2): 59-66.

[4] 周璐婕,董昱.基于GA-BP神经网络的列控车载设备故障诊断方法研究[J].铁道科学与工程学报,2018,15(12):3257-3265.

ZHOU Lujie, DONG Yu. Research on Fault Diagnosis Method for On-board Equipment of Train Control System Based on GA-BP Neural Network[J]. Journal of Railway Science and Engineering, 2018,15(12): 3257-3265.

[5] 路志英,任一墨,孙晓磊,等.基于深度学习的短时强降水天气识别[J].天津大学学报(自然科学与工程技术版),2018,51(2):111-119.

LU Zhiying, REN Yimo, SUN Xiaolei, et al. Short-term Heavy Rainfall Weather Recognition Based on In-depth Learning [J]. Journal of Tianjin University (Natural Science and Engineering Edition), 2018, 51 (2): 111-119.

[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based Learning Applied to Document Recognition[J]. Proceedings of the IEEE,1998, 86(11):2278-2324.

[7] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed Representations of Words and Phrases and Their Compositionality[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. New York: ACM, 2013: 3111-3119.

[8] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient Estimation of Word Resentations in Vector Space [EB/OL]. (2013-01-16) [2019-04-11]. https://arxiv.org/abs/1301.3781.

[9] HINTON G E. Learning Distributed Representations of Concepts[C]//Proceedings of the Eighth Annual Conference of the Cognitive Science Society. Amherst: Erlbaum Associates, 1986: 1-12.

[10] PENG Y T,JIANG H. Leverage Financial News to Predict Stock Price Movements Using Word Embeddings and Deep Neural Networks[C]// Proceedings of the 2016 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg: NAACL, 2016:374-379.

[11] DAHOU A,XIONG S W,ZHOU J W, et al. Word Embeddings and Convolutional Neural Network for Arabic Sentiment Classification[C]// Proceedings of the 26th International Conference on Computational Linguistics.New York: ACM, 2016:2418-2427.

[12] 郭宝震,左万利,王英.采用词向量注意力机制的双路卷积神经网络句子分类模型[J].浙江大学学报(工学版),2018,52(9):1729-1737.

GUO Baozhen, ZUO Wanli, WANG Ying. A Sentence Classification Model Based on Two-way Convolutional Neural Network Using Word Vector Attention Mechanism[J]. Journal of Zhejiang University (Engineering Edition), 2018, 52 (9): 1729-1737.

[13] KIM Y. Convolutional Neural Networks for Sentence Classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2014:1746-1751.

[14] ZHANG X, ZHAO J, LECUN Y. Character-level Convolutional Networks for Text Classification[C]// Neural Information Processing Systems. Montreal: NIPS, 2015: 649-657.

[15] MATEUSZ B, ATSUTO M, MAZUROWSKI M A. A Systematic Study of the Class Imbalance Problem in Convolutional Neural Networks[J]. Neural Networks,2018,106:249-259.

[16] 中国铁路总公司.列控车载设备典型故障案例[M].北京:中国铁道出版社,2013:6-94.

[17] 陈涛. 基于分布式表示学习的文本情感分析[D].哈尔滨:哈尔滨工业大学,2018.

[18] 周飞燕,金林鹏,董军. 卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.

ZHOU Feiyan, JIN Linpeng, DONG Jun. Review of Convolutional Neural Networks [J].Journal of Computer Science, 2017,40(6): 1229-1251.

[19] IOFFE S, SZEGEDY C. Batch Normalization: Accelerating Deep network Training by Reducing Internal Covariate Shift[C]//Proceedings of the 32nd International Conference on Machine Learning. New York: ICML Press, 2015: 448-456.

[20] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017,42(2):2999-3007.

[21] 许玉格,孙称立,赖春伶,等.基于不平衡学习的集成极限学习机污水处理故障诊断[J].化工学报,2018,69(7):3114-3124.

XU Yuge, SUN Chengli, LAI Chunling, et al. Fault Diagnosis of Wastewater Treatment by Integrated Limit Learning Machine Based on Unbalanced Learning [J]. Journal of Chemical Engineering, 2018,69(7): 3114-312.

[22] LEE T, LEE K B, KIM O C. Performance of Machine Learning Algorithms for Class-imbalanced Process Fault Detection problems[J]. IEEE Transactions on Semiconductor Manufacturing, 2016, 29(4): 436-445.

[23] 杨杰明.文本分类中文本表示模型和特征选择算法研究[D].吉林:吉林大学,2013.

(0)

相关推荐