浅谈数据中心 IT 机房的空气调节(下篇)-制冷中断
摘要:1简要介绍数据中心制冷中断的常见情况和故障原因,举例说明在实际工 作中遇到的制冷系统的故障情况和紧急处置方式。2建立数据中心 IT 机房“冷 通道封闭模型”和“热通道封闭模型”,使用 CFD 软件进行模拟仿真,对比两种 模型在制冷短暂中断 30S 时,机房的温度分布和 IT 设备的温升情况。
一、 数据中心机房的制冷中断
冷冻水循环出现故障,例如:1供水压力减小,造成末端冷冻水流量不足, 2管网失压,造成冷冻水循环中断等。
1.1 冷冻水主管道爆管,造成管网失压;
1.2 冷冻水管道进气严重,造成管网失压;1.3 二次冷冻水泵故障(多台),造成二次管网压力不足。
关键设备故障或供电中断,造成短暂制冷中断
在数据中心实际运行中,制冷系统出现的故障以阀门误动作(人为或自动)、制冷系统相关设备故障或供电中断、管网进气等较为常见。其中以管网进气 危害最大,处置不当极易造成数据中心长时间供冷中断,出现机房高温造成IT 设备宕机和损坏。
以下是实际工作中遇到的事件,仅供大家参考:
2.1 精密空调供电中断(或 ATS 动作),IT 机房出现短暂制冷中断;
2.2 冷冻二次泵供电中断(或 ATS 动作),管网压力不足或失压,造成 IT 机房出现短暂制冷中断;
2.3 BA 系统的软硬件故障或供电中断(无断电自保持功能),造成阀门误动作,水泵或冷水机组停机。
4.1 事件一:P201-UPS 配电室内 4 台 UPS 告警“环境温度高告警”(UPS 告警信息接入监控系统)。
1) 事件原因:支路供水管电动阀误动作关闭,造成P201-UPS配电室的精密空调供冷中断,现场查看精密空调出现告警“送风高温”(该告 警未接入监控系统)。
2) 现场处置概况:
1 用纸板挡住 UPS 配电室的回风百叶,手动调节精密空调送风速度至 100%,打开精密空调间和配电室的大门,使用 4 台工业风扇对 UPS 进行强迫降温。
2 查找到故障原因后,打开电动阀恢复冷冻水供给,使用精密空调为配电室降温。
4.2 事件二:蓄冷罐(开式)高水位告警,现场查看发现蓄冷罐大量溢水,由于发现及时处置得当,水泵未发生异响振动和流量衰减,末端供冷未受影响。
1) 水泵设备参数:
一次冷冻水泵:流量 510m3/h,扬程 25m,55KW,定频。
二次冷冻水泵:流量 510m3/h,扬程 28m,55KW,变频。
2) 事件原因:蓄冷罐处于充冷状态,由于蓄冷罐回水管电动阀误动作关闭,冷冻水只进不出,造成蓄冷罐大量溢水。
3) 现场处置概况:
1 1 名值班工程师巡视蓄冷罐和检查机房内部管道是否有异响,1名值班工程师到冷冻站检查设备运行情况和留守观察,ECC 值班 工程师核对 BA 系统上的设备状态。
2 在定压补水的基础上,手动开启市政补水阀门进行快速补水。
3 通知其他同事到达现场支援,排查故障原因和检查排气阀。
4 故障点找到后,打开蓄冷罐回水管电动阀,恢复蓄冷循环。
5 事件处置完成,正常运行 1 小时后,支援人员撤出。
4.3 事件三:巡检发现冷却水泵电动机异响,轴承安装位外壳温升过大,造 成对应的制冷单元退出运行,制冷单元冗余缺失。
1) 事件原因:电动机、联轴器和水泵对心不良,造成轴承过载和发热严重,造成电动机异响和端盖温度异常。
2) 现场处置概况:
1 启动备用制冷单元,故障制冷单元退出运行,进行水泵电动机故 障排查和维修。
2 拆卸电动机进行维修,发现后端盖内有磨损,轴承内的滚珠磨损 较为严重,转子轴承位出现少量磨损痕迹,更换电动机后端盖和 前后轴承。检查水泵本体和轴承无异常后,进行电动机和水泵的 调平对心、试运行和振动检查。
二、 数据中心制冷短暂中断的CFD仿真
基础条件设定:制冷单元和供冷运行正常,精密空调主电源短暂供电中断,ATS动作切换到备用电源,精密空调的缓降时间为 5S,重新启动时间(制冷中断)为30S。
1. 封闭冷通道系统仿真结果
1.1 机房发生 5 台精密空调短暂停机
封闭冷通道系统,机房发生 5 台精密空调短暂停机 |
|||
时 间 |
仿真截图 |
时 间 |
仿真截图 |
0秒 |
10秒 |
||
20秒 |
30秒 |
||
35秒 |
40秒 |
1.2 机房发生 10 台精密空调短暂停机
封闭冷通道系统,机房发生 10 台精密空调短暂停机 |
|||
时 间 |
仿真截图 |
时 间 |
仿真截图 |
0秒 |
10秒 |
||
20秒 |
30秒 |
||
35秒 |
40秒 |
2. 封闭热通道系统仿真结果
2.1 机房发生 5 台精密空调短暂停机
封闭热通道系统,机房发生 5 台精密空调短暂停机 |
|||
时 间 |
仿真截图 |
时 间 |
仿真截图 |
0秒 |
10秒 |
||
20秒 |
30秒 |
||
35秒 |
40秒 |
2.2 机房发生 10 台精密空调短暂停机
封闭热通道系统,机房发生 10 台精密空调短暂停机 |
|||
时 间 |
仿真截图 |
时 间 |
仿真截图 |
0秒 |
10秒 |
||
20秒 |
30秒 |
||
35秒 |
40秒 |
3. IT设备进/出口温度曲线
类型 |
5 台精密空调停机 |
10 台精密空调停机 |
|
封 闭 冷 通 道 |
IT设备 进口 温度 曲线 |
||
IT设备 出口 温度 曲线 |
|||
封 闭 热 通 道 |
IT设备 进口 温度 曲线 |
||
IT设备 出口 温度 曲线 |
三、 仿真结果分析
采用双侧精密空调送风的IT机房,在双侧精密空调ATS同时切换(10台精密 空调受影响)比单侧精密空调 ATS 同时切换(5 台精密空调受影响)机房温升 更高更快。
通过对仿真数据的分析可知,采用不同气流遏制的方式,在制冷中断时响应 时间也不同。
2.1 采用封闭冷通道的方式(ATS 切换时,5 台精密空调受影响),在制冷中断30S 后服务器的最小进口温度约为 35°C,最小出口温度约为 51°C。
2.2 采用封闭热通道的方式(ATS 切换时,5 台精密空调受影响),在制冷中断30S 后服务器的最小进口温度约为 29°C,最小出口温度约为 46°C。
2.3 封闭热通道的机房内的空间充满冷空气,可为 IT 设备的散热提供冷源, 也能被散热风扇利用;而封闭冷通道的机房,由于冷空气在高架地板下 方,难以被 IT 设备的散热风扇有效利用。所以封闭热通道的机房在制冷 中断的响应时间较长,优于封闭冷通道的机房。
通过对CFD仿真结果分析,无论气流遏制方式是什么,在发生制冷短暂中断 时机房升温很快(机柜功率越大,升温越快),应急处置的时间很短(大约 15S)。为避免以上情况发生,需从供电路由、设备功能、ATS 电源设置和运维措施 等方面进行优化。
3.1 精密空调间进行 A,B 分区,同时优化 ATS 电源路由配置。A 区精密空调 间:A路UPS电源+B路市电;B区精密空调间:B路UPS电源+A路市电, 有条件的数据中心可配置双路 UPS 电源。
3.2 精密空调断电重启功能进行优化,在采购精密空调时向厂家提出相关技 术要求:
1 精密空调需有快速启动功能,断电重启到运行时间小于 15S;
2 精密空调断电重启后,风速和水阀为全开状态,持续时间可设置。
3.3 ATS 电源切换时间的设置建议:主用切换到备用的自投时间为 0S;备用 切换到主用时,自复时间第一台可设置为 30S,以后每台逐次增加 30~45S。可避免 ATS 自复时同时切换,造成制冷短暂中断和机房高温。
3.4 在监控系统出现“XX 精密空调 ATS 切换动作告警”和“XX 精密空调通讯中断”时。1值班运维工程师迅速到达现场(应带上手动切换把手),检 查 ATS 配电箱和精密空调的运行情况;如发生 ATS 自投失败时,应切换 到手动模式和切换至备用电源。2监控岗和值班长要密切关注机房的温 度变化,并与到现场的值班运维工程师保持沟通,确保机房发生温度异 常时,能第一时间通知现场的值班运维工程师进行应急处置。
四、 结束语
使用 CFD 进行机房制冷中断的模拟仿真,可以弥补第三方测试在机房温升测 试中的不足,为机房运维工程师提供直观的参考数据和依据,起到优化运维工作、 验证设备参数设置和技术改造方案的作用。