数据中心UPS电源常见故障分析
UPS作为数据中心不可缺少的供电保护系统,其应用领域是越来越广泛。但长期以来,由于部分使用人员不了解UPS的组成、原理、特点,不注重对UPS的管理维护,使其使用寿命缩短,故障率增高,其结果是影响了UPS性能的发挥,并导致UPS系统故障,UPS系统被动故障可分为使用性故障和器件或板级故障。
在人为故障中,UPS电源系统的选型是第一关,这一道关把不住首先就种下了隐患的种子。UPS电源系统的连接是第二关,有了好的设备,如果没有好的连接方案,也会埋下隐患。某电视台由于连接方案被厂家误导。十几套节目的供电UPS故障接连不断,而且大都是有惊无险,一连几年都是这样,使维保人员提心吊胆、伤透了脑筋。连接方案是一个工程,不是维保人员左右的了的。无奈只好在重大活动和节日要求厂家工程师前来值班。这又有什么用呢?厂家的工程师到此也只能是给用户心理上以安慰。
所谓使用性故障,是指由于操作、维护人员的误操作、对故障现象的错误判断、所采取的不当措施及经验性诊断等造成的故障。UPS的使用性故障大致可以分为知识性故障、操作性故障、延误性故障、维护性故障、经验性故障、环境性故障、突然掉电故障、UPS器件或板级故障等。
(1)基本概念不清,易受厂家误导。比如某高速公路招标UPS,在标书中要求UPS要具有输入断一相或两相后电池不放电,还能继续供电的能力。因为有的厂家标榜他的UPS在输入断一相后电池不放电,UPS还有50%的供电能力;输入断两相后电池仍不放电,UPS还有25%的供电能力,延长了电池的使用寿命。用户就认为这个性能好,稍动脑筋不难发现其弊病:若想享受其优点必须购买4倍于负载容量的UPS,否则断一相后就带不动当前的负载了。话又说回来,如果UPS断的是输入开关后面的两条线怎么办?还修不修?何时修?是否完全断电后才能修?等等这一系列问题如何解决。如果用户真的按负载实际容量购买了这样的UPS,这就是莫大的隐患,这是靠运维解决不了的问题。
(2)不便说明的原因。比如有的用户从上个世纪就开始使用某品牌的机器,当时由于客观原因尽管输入功率因数低、效率低、体积大、耗电多和价格贵而无法也不便解决。现在比原来机型优越的多的新机型早已问世,比如新型的高频机结构UPS每一百千瓦每年要比原来工频机机结构的UPS节约5万度电,而这个几兆瓦容量的机房每年就可节约几百万度电。但由于某种原因,硬是放着节能设备不选而仍将那种耗能的机器写入标书,这样做还怕不保险,还把那种机器的结构特点写入标书。这不但增加了空调设备的投资和占地面积,无疑也为今后的运行埋下了隐患。这又是运维中无法解决的问题。
(3)追求低价格。有的用户认为UPS都一样,所以就追求低价格,结果导致故障。比如某高速公路指挥部贪图便宜,第一天装机,第二天就起火;某人寿保险公司低价格购进的机器,不到半年因UPS故障而烧毁几乎所有IT设备的输入电路,导致系统瘫痪;又如某多台UPS并联的兆瓦级数据中心,装机没有几个月因其中一台UPS中的一个逆变器功率管击穿而导致所有UPS跳闸……
因为UPS所带负载的重要性,为了保证UPS安全可靠地运行,各种产品都有自己的一套安全操作程序,并被写进说明书以供用户参照执行。但有个别维护人员却对此不以为然,并不按照既定程序操作,而是按照自己的理解随意操作,结果有时就出了问题;也有无意识的操作故障,例如,在维修或保养期间,因拆卸某一器件时不小心将邻近的器件碰坏而未发现,开机加电时形成二次故障;在检查故障时表笔误将某两点短路;连接外部蓄电池时误将正、负极搞错;有单只或几只蓄电池连接条未拧紧或蓄电池开关未闭合,市电停电时蓄电池放不出电而导致UPS停机;供电局进行市电线路改造或维修时将原来的相序搞错,也会导致UPS无法启动或转换失败;UPS加电后忘记启动逆变器,在市电断电时同样会导致停机;由于值班人员在机房内乱放食物而招来老鼠,老鼠啃咬线缆或窜入机内而导致线缆或元器件之间的短路故障;无屏蔽的远程信号线缆与交流线并行布线,由于耦合干扰而导致故障等。
UPS的周期性维护内容虽然较少,但这些内容却是非常必要的,而且这些维护要有一套严格的程序。不按要求定期地维护设备是导致故障的重要原因。
例如,有的UPS长期不维护不保养,一旦发现设备工作不稳定,只好请求维修。待打开机壳一看,电路板和元器件上积了厚厚一层灰尘,只要用吹风机和吸尘器将这些灰尘清理掉,设备即可恢复正常。又例如,有一台UPS维修完毕后,维修人员将市电加到输入端,而忘了启动逆变器或闭合蓄电池开关,等到下一次市电停电时,UPS因逆变器不能启动而关机。
即使是由几次处理故障经历得到的经验,也不能死搬硬套。例如,有一个具有甲种品牌UPS操作经验的用户去操作新安装的乙种品牌UPS,也不看说明书,就凭经验直接进行直流启动。因为他熟悉的UPS都可直流启动,哪知这台机器就没有直流启动功能,当然启动不了。于是,他就打开机箱用螺丝刀见继电器就捅,逆变器虽然启动了,但马上就冒烟了,功率管损坏了。他不知道具有直流启动功能的UPS在启动时是有一定程序的:当打开直流启动开关后,首先控制电路工作,然后才去驱动逆变器,即正常启动。但此台UPS无直流启动功能,控制电路正在工作的同时,逆变器也在启动,过渡中的不稳定状态导致逆变器的两个功率管同时导通而烧毁。
还有的维护人员在培训时,自认为对UPS的原理已经掌握,只要求学一些排除故障的方法。而短期的培训只可能学习一些简单故障的判断方法,具体故障要具体分析,经验仅可作为参考。例如,UPS交流输入熔丝烧断的原因有很多,如整流器击穿、滤波电容击穿、逆变器击穿、输入整流管两端的RC网络短路,以及由此而波及的控制电路损坏等,这些都会造成熔丝烧断。当然,对一些简单故障的判断和排除,经验是有用的,不过要灵活运用,具体情况具体对待。
从以上几点可以看出,对UPS的维护应制定并严格遵循一套科学有效的方法,才有可能避免上述的人为故障,以使UPS的故障率大大减小,真正做到不间断地为用电设备提供安全、可靠的洁净电源。
(来源:3C数码解密)