数据中心ups电源七个故障分析
UPS作为数据中心不可缺少的供电保护系统,其应用领域是越来越广泛。但长期以来,由于部分使用人员不了解UPS的组成、原理、特点,不注重对UPS的管理维护,使其使用寿命缩短,故障率增高,其结果是影响了UPS性能的发挥,并导致UPS系统故障,UPS系统被动故障可分为使用性故障和器件或板级故障。
UPS的使用性故障
所谓使用性故障,是指由于操作、维护人员的误操作、对故障现象的错误判断、所采取的不当措施及经验性诊断等造成的故障。UPS的使用性故障大致可以分为知识性故障、操作性故障、延误性故障、维护性故障、经验性故障、环境性故障、突然掉电故障、UPS器件或板级故障等。
1.知识性故障
这类故障情况的出现主要是由于维护人员缺乏基本的理论知识所致。例如,有一台新安装的30kVA的UPS向一台设备供电,设备接好电源开机后发现该设备中的一个电源模块被烧坏。于是用户认为是由于UPS的三相电压零点漂移所致,并向UPS厂家提出交涉,要求马上对设备进行检查或更换并对损坏的设备进行赔偿。既然用户提出这样一个既专业又严重的问题,那么厂家就立即派技术人员对该UPS进行检查。经检查,三相输出电压分别为220V、219V、219V,对称性很好,零点并未漂移。经仔细检查分析,确认设备电源模块的损坏是因为其质量有问题,更换电源模块后设备正常运行。
对于三相电压,一般来说其偏差小于2%可以不计。目前,大多数UPS在三相负载100%不平衡时,都具有自动调节其电压不平衡度小于2%的能力。所谓三相负载100%不平衡,是指UPS的负载一相或两相满载,而另两相或一相空载的情况。例如,30kVA的UPS一相的满载值是10kVA(即10kVA/220V=45A)。并不像有人理解的那样,一相电流为1A,另一相为2A,就认为它们的不平衡度是50%,实际上不能这样理解。反过来说,如果一相电流为1A,另一相电流为0,岂不是它们的不平衡度也是100%,从字面上理解似乎是对的,但定义并非如此。
又例如,有的用户给UPS配置的是工作寿命为3~5年的蓄电池,而环境温度夏天经常超过30℃,而且两年多市电从未停过,开机后维护人员也从未对蓄电池进行过核对性或容量测试性放电试验,蓄电池的运行状况不得而知。偶遇市电停电,蓄电池的放电时间不到额定时间的1/3,UPS就关机了。于是,用户就向厂家发出了索赔通知,等厂家的维修工程师指出故障原因,出示了操作说明书上关于蓄电池保养的有关内容并详细分析了蓄电池容量减小的原因后,用户无法再提索赔要求,但这对厂家声誉造成的影响却是严重的。
2.操作性故障
因为UPS所带负载的重要性,为了保证UPS安全可靠地运行,各种产品都有自己的一套安全操作程序,并被写进说明书以供用户参照执行。但有个别维护人员却对此不以为然,并不按照既定程序操作,而是按照自己的理解随意操作,结果有时就出了问题;也有无意识的操作故障,例如,在维修或保养期间,因拆卸某一器件时不小心将邻近的器件碰坏而未发现,开机加电时形成二次故障;在检查故障时表笔误将某两点短路;连接外部蓄电池时误将正、负极搞错;有单只或几只蓄电池连接条未拧紧或蓄电池开关未闭合,市电停电时蓄电池放不出电而导致UPS停机;供电局进行市电线路改造或维修时将原来的相序搞错,也会导致UPS无法启动或转换失败;UPS加电后忘记启动逆变器,在市电断电时同样会导致停机;由于值班人员在机房内乱放食物而招来老鼠,老鼠啃咬线缆或窜入机内而导致线缆或元器件之间的短路故障;无屏蔽的远程信号线缆与交流线并行布线,由于耦合干扰而导致故障等。
3.延误性故障
延误性故障是指由于维护人员的疏忽未及时发现故障隐患,或发现了却未及时采取相应措施而导致的UPS故障。例如,在UPS双机冗余并联系统中,负载被均分到两台UPS上,有时由于某种巧合而导致其中的一台逆变器关机,这时负载被全部转移至另外一台UPS上,如果维护人员及时发现了,那么只要将关机的UPS逆变器重新开启即可;如果维护人员未及时发现,那么遇到市电中断时,就变成了单机供电,一方面过载能力减弱,另一方面后备时间减半,此时,一旦过载就会造成所带负载全部中断。又例如,当蓄电池在不理想的条件下运行时,应按时对蓄电池进行维护,一经发现有容量明显减小的蓄电池,应立即更换。因为蓄电池的损坏有的是逐渐累积造成的,也有的是瞬间发生的,即昨天还是可用的,今天就无法放电了。在对蓄电池的维护中就会遇到此类情况:上次月检时,个别蓄电池虽然浮充电压稍低,但还未到完全不能使用的程度,而在当月市电停电后,有一组蓄电池却完全不能放电了。因此,一旦发现蓄电池有故障,要及时进行更换,以免酿成事故。
4.维护性故障
UPS的周期性维护内容虽然较少,但这些内容却是非常必要的,而且这些维护要有一套严格的程序。不按要求定期地维护设备是导致故障的重要原因。例如,有的UPS长期不维护不保养,一旦发现设备工作不稳定,只好请求维修。待打开机壳一看,电路板和元器件上积了厚厚一层灰尘,只要用吹风机和吸尘器将这些灰尘清理掉,设备即可恢复正常。又例如,有一台UPS维修完毕后,维修人员将市电加到输入端,而忘了启动逆变器或闭合蓄电池开关,等到下一次市电停电时,UPS因逆变器不能启动而关机。
即使是由几次处理故障经历得到的经验,也不能死搬硬套。例如,有一个具有甲种品牌UPS操作经验的用户去操作新安装的乙种品牌UPS,也不看说明书,就凭经验直接进行直流启动。因为他熟悉的UPS都可直流启动,哪知这台机器就没有直流启动功能,当然启动不了。于是,他就打开机箱用螺丝刀见继电器就捅,逆变器虽然启动了,但马上就冒烟了,功率管损坏了。他不知道具有直流启动功能的UPS在启动时是有一定程序的:当打开直流启动开关后,首先控制电路工作,然后才去驱动逆变器,即正常启动。但此台UPS无直流启动功能,控制电路正在工作的同时,逆变器也在启动,过渡中的不稳定状态导致逆变器的两个功率管同时导通而烧毁。
还有的维护人员在培训时,自认为对UPS的原理已经掌握,只要求学一些排除故障的方法。而短期的培训只可能学习一些简单故障的判断方法,具体故障要具体分析,经验仅可作为参考。例如,UPS交流输入熔丝烧断的原因有很多,如整流器击穿、滤波电容击穿、逆变器击穿、输入整流管两端的RC网络短路,以及由此而波及的控制电路损坏等,这些都会造成熔丝烧断。当然,对一些简单故障的判断和排除,经验是有用的,不过要灵活运用,具体情况具体对待。
6.环境性故障
环境性故障是由于用户不重视设备使用环境而导致的。例如,有一台30kVA的UPS被用户长期放在堆满杂物的仓库里,仓库没有空调也不通风,夏天温度高达30~40℃,湿度又大,这样导致UPS内元器件性能降低,蓄电池容量也大打折扣,当这台UPS被安装投入使用后,故障频频发生,蓄电池容量也远远达不到要求。又例如,将一台20kVA的UPS安装在一间简易屋顶房内,风雨过后,UPS逆变器关机,充电板被烧毁,检查发现是由于屋顶的泥水由上出风口灌入机器内所致。还有的地方市电条件很差,经常停电,致使蓄电池长期处于亏电状态,寿命急剧缩短;也有的地方在市电电压上经常叠加着很高的干扰电压,配电柜内的二级防雷器屡屡烧毁,并有时击毁UPS,进而损坏用电设备。
从以上几点可以看出,对UPS的维护应制定并严格遵循一套科学有效的方法,才有可能避免上述的人为故障,以使UPS的故障率大大减小,真正做到不间断地为用电设备提供安全、可靠的洁净电源。
7.突然掉电故障
突然掉电会给UPS硬件造成很大的损伤,还会对数据中心运营产生影响。突然掉电故障多为UPS负载超出上限导致自动停机保护。对此可停运几台不重要的设备,让UPS的负载率低于90%。