一起继电保护装置数据异常故障分析与对策
国网福建电力调度控制中心、国网福州供电公司的研究人员邓勇、黄烽、陆榛、宋福海、任晓辉,在2017年第11期《电气技术》杂志上撰文,本文针对某次继电保护装置告警“内存错误”并伴随差动保护元件动作报文的故障进行分析,详细介绍了动作情况、现场检查和缺陷排查过程,查明故障原因是Hdlc编码芯片运行一段时间后发生引脚接触不良,导致与CPU总线相连的器件通信异常,影响各器件的稳定运行。
结合故障案例,分析继电保护装置内部器件结构,提出了在装置状态检修工作中应对装置内部器件及其之间通信状况开展监视、对Flash芯片寿命进行评估等建议。
继电保护装置属于电子产品,由许多逻辑功能器件组成,即各类功能芯片及其外围电路和数据通信总线组成,通过微型处理器的强大运算能力实现复杂的保护逻辑。逻辑功能器件劣化将会造成不同程度装置缺陷的发生,严重时将对保护逻辑、装置行为造成影响,甚至导致装置误动、拒动的发生。逻辑功能器件通常可靠性较高,因此暴露出的问题相对较少。同时由于装置硬件结构复杂,需要运维人员具有较高的素质才能够分析装置缺陷原因。
装置缺陷的发展过程通常可用P-F曲线描述,即装置功能退化到潜在缺陷P点之后才逐步发展为能监测到的缺陷,若潜在缺陷未被发现并及时处理,通常将加速退化直至F点而造成故障。
潜在的硬件缺陷往往也属于装置隐性故障,电力系统正常运行时对系统没有影响,但当系统处于压力状态时同样可能造成误动或拒动故障。对于电力系统一次设备的老化程度分析通常可以使用其理化参数。
而由于保护装置结构的复杂性,关于保护装置故障的研究通常是围绕保护逻辑上的错误开展,深入研究由装置劣化引起故障机理的文献则相对较少。随着保护装置自检技术的发展,大部分功能缺陷通过装置自检能够被发现,并主动闭锁保护逻辑和发出告警信号,使运维人员能及时开展检修工作。
许多文献开展了装置在线监测技术的研究,主要包括:定值校核、自检告警事件上传、多源数据对比等。但这些监测功能同样只局限于反映装置缺陷是否发生,仍存在无法反映装置劣化过程的问题。
本文针对某次由单芯片异常造成装置其他芯片损坏、保护逻辑错误的故障,详细介绍了装置检查、缺陷分析和处理过程,分析导致故障发生的原因。探讨继电保护装置状态检修工作的改进措施,指出应进一步关注装置内部器件的劣化过程。分析了装置内部器件结构,提出对装置内部器件及其之间通信状况开展监视、对Flash芯片寿命进行评估等措施,以更全面掌握装置运行状态,提高装置状态检修水平。
1、故障基本情况
2015年5月,现场对220kV某线路A变电站侧差动保护开展定期检验工作。正常运行情况下,发现零序差动保护元件条件满足,发出动作报文。但启动CPU不满足动作条件,出口继电器的24V电源未开放,保护装置未出口跳闸。
检查保护装置,电压电流采样值均无异常,装置供电电源无异常。保护装置的录波文件无法读取和打印,装置液晶屏面板频繁出现“CPU1:内存错误”报文,检查期间还出现保护CPU初始化的情况。
初步认为A变电站侧保护装置的保护模件和AD模件存在缺陷,由于采样值异常导致差动保护元件条件满足。将保护装置返厂检查,进行详细试验分析。
2、故障原因分析
2.1装置及元件初查
检查保护装置模件和AD模件内部器件,没有发现器件烧损、鼓包,电路板完整,芯片与印刷电路焊接良好。检查ROM程序完好性。装置液晶屏显示版本号、CRC码等信息与ROM芯片上标签一致。
由于现场检查发现装置有“内存错误”告警,初步判断保护模件中Flash失效,影响CPU对同一总线上的RAM的数据读写,造成电压电流采样值异常,导致差动保护发出动作报文。
2.2装置试验验证
在实验室中,给保护装置输入电压电流模拟量,进行多次故障试验,使保护装置频繁动作,产生事件报文,强制CPU重复读写Flash。试验中出现“内存错误”告警并且无法读取录波文件的情况,复现了现场缺陷情况。然后替换崭新的同型号Flash芯片,继续多次试验,未再发生同类事件。
继续试验过程中,发现装置液晶屏显示差动保护通道误码总数缓慢增大。排除另一套装置自身异常和光纤接线问题后,判断保护模件仍存在缺陷未消除。再次检查保护模件,发现Hdlc编码芯片在PLCC插座中一侧明显翘起,如图1所示。
图1 保护模件侧视图
取下芯片检查,发现翘起面多个引脚有氧化现象,并有3个引脚氧化严重。氧化的引脚处于CPU总线的地址位、地址/数据控制位、中断申请信号位,其接触不良将造成数据错误、通信异常等问题。更换新的Hdlc芯片,连续通电100小时,未再出现异常现象;输入模拟量反复进行故障试验,保护均正确动作。
2.3缺陷原因分析
综上可以得,本次故障由于Hdlc芯片接触不良造成CPU总线上相连的器件间通信异常引起。如图2所示,一方面表现为装置运行过程中,CPU频繁对Flash芯片进行擦写操作,最终造成擦写次数过多造成Flash损坏。保护CPU记录事件时无法正常读写Flash,检测程序判断Flash出错,保护装置输出“内存错误”告警。
另一方面,总线异常导致保护CPU从RAM读写采样值时出错,正好满足故障特征,差动保护逻辑条件满足。由于CPU自身无法判断采样值的错误,不输出告警信号。
图2 保护CPU板器件框图
3、保护装置输出信息改进分析
通过上述故障分析过程可以看出,当前继电保护装置输出的异常信息未充分体现保护内部器件的健康状况,还需深入地挖掘可获取的信息作为补充,以加强对装置内部器件的监视。
因此,下文首先对保护装置内部结构进行分析,确立器件之间的关系。然后从器件劣化程度和运行状态两方面,探讨保护装置输出信息的改进措施,分析反映Flash自身劣化程度的状态量和反映各器件运行状态的状态量。
3.1保护装置内部器件结构
微机型保护装置发展已较成熟,通常在分析缺陷时将其分为交流插件、CPU插件、开入插件、开出插件、人机交互插件和电源插件。但使用这种典型结构来描述装置缺陷部位仍较为简单,对装置缺陷产生的机理往往无法描述清楚。
对装置缺陷的统计、缺陷知识库的构建也是不够的。通过对不同型号装置结构的对比和研究,将常规站微机型保护装置内部器件以功能作为划分的主要标准进行细化总结,如图3所示。
图3 保护装置内部细化结构
保护装置供电电源为直流220V或110V。输入电压通过抗干扰处理后,由DC/DC变换器转换为+5V(3.3V)、+24V、±12V(10V)等多组电源。交流信号通过电压、电流互感器转变为保护所需的弱电信号,再通过两个独立的滤波和AD转换模块转换为数字信号分别送至启动CPU和保护CPU。
启动CPU判断启动条件、保护CPU判断保护条件分别开放保护出口电源和驱动保护出口继电器动作。保护CPU通过光耦隔离,接收外部开入信号。管理CPU则用于实现装置的其他辅助功能。对于使用光纤通道的纵联保护,保护CPU还连接通道编解码、光电转换器、光纤等。不同型号装置的设计主要在实现各模块功能的硬件选择上和模块间通信总线选择上存在差异。
装置插件内部细化结构能更清晰地表现装置各功能模块之间的关系,可以作为装置缺陷分析的通用的模型。按照装置插件硬件设计,建立功能模块级和插件级两级对应关系。从而可在功能模块级对保护缺陷进行分析,定位缺陷,并映射至插件制定维修和更换策略。此外通信总线作为连接各个功能模块的通道,也应重点关注。
3.2 Flash老化程度评估指标
根据图3所示,保护装置的逻辑功能器件包括MCU、DSP、FPGA、E2PROM、RAM、Flash、AD转换芯片、通信芯片等多种集成芯片及其外围电路。通过各器件互相配合、交互数据实现装置各项功能。逻辑功能器件可靠性较高,且大部分没有明显的劣化过程。而其中Flash芯片劣化过程较明显。
对于长期不间断运行的保护装置,Flash的剩余寿命是值得关注的;同时装置硬件缺陷或程序设计缺陷可能造成Flash劣化程度出现差异,应在状态检修工作中应对其寿命进行监视和评估。
Flash利用悬浮栅贮存电子实现数据存储。对其进行数据擦写将消耗悬浮栅表面的硅氧化物,导致flash失效。其寿命与对其擦写操作有较大关系。其每个存储器单元有擦写次数限制,驱动程序通常利用坏块管理和损耗均衡等技术来保证数据存储正确和芯片的设计寿命。则其寿命可通过坏块率和写入总容量这两个指标来评估。其中写入总容量用转化为允许倍数来评估寿命。
定义Flash写入容量允许倍数s如式(1)所示。
3.3器件通信状态监视
目前保护装置提供的许多自检信息是用于反映各器件是否存在缺陷。如利用模式校验法检查RAM存储内容;利用奇偶校验法或求和校验法检查ROM存储内容;利用定时器监视法检查CPU运行情况;对比冗余数据、检查通道报文格式等手段判断芯片是否失效,当失效的情况达到一定次数或一定频率时装置输出告警信号。同时保护装置能通过自动初始化、重发重收、冗余配置等容错机制以提高可靠性。但这也造成了一些缺陷难以被发现,使保护运行存在隐患。
随着保护装置运行时间增加,装置内部存在的潜在缺陷逐渐发展,装置功能产生错误的概率往往将增加。则对于没有明显劣化过程的逻辑功能器件来说,应监视其运行中产生的异常情况,从侧面反映其健康程度。
保护装置中各器件通过大量现场总线连接。外部干扰、装置硬件和软件缺陷都有可能造成模块间通信异常。因此保护CPU应对各器件的通信状态进行有效校验。将每次功能模块发生的通信异常进行记录,统计总数、频率等详细信息,并按照器件所属总线进行统计。利用装置本身历史运行情况进行纵向对比,将能对装置运行状态变化趋势进行判断。
4、结论
本文针对某次继电保护装置自检告警并发生保护逻辑异常的故障,介绍现场检查和试验过程,说明缺陷分析方法和故障原因,为装置内部逻辑功能器件缺陷分析提供借鉴的案例。
继电保护装置作为电子产品,内部设计复杂多样、制作工艺繁多。目前的装置状态检修中,运维人员对装置内部器件存在的潜质缺陷的发现能力还有待加强。
通过分析本次故障,本文提出应更全面地获取装置内部器件的信息用于促进装置潜在缺陷的发现,改进状态检修工作。这就需要根据装置内部器件和其间关系构建更详细的装置档案,对器件运行状态和通信状态进行监视,特别地应对Flash开展剩余寿命的评估。