探秘世纪互联之运维应急保障(中):如何应对不可控非自然因素?

前言

在数据中心运维应急保障的过程中,除了我们在上期的专题系列第一篇探秘世纪互联之运维应急保障(上):如何应对极端天气?所提到的极端天气自然灾害类突发情况以外,还有一类特殊的情况——不可控非自然因素。那么,在面对这类不可控因素时,世纪互联(以下简称“互联”)的数据中心又是如何应对的呢?

本期文章为「探秘世纪互联之运维应急保障」专题系列第二篇《探秘世纪互联之运维应急保障(中):如何应对不可控非自然因素?》。(本文约4800字,阅读全文大约需要11分钟)

根据第三方数据中心基础设施的研究机构Uptime Institute公布的《2021 Annual outage analysis》报告来看,在过去一年里,全球影响数据中心宕机的故障因素中,除去IT设备本身软件与硬件及网络导致的故障外,超容量因素占12%,电力中断因素占4%,制冷中断因素占3%,火灾因素占3%,运维管理政策和策略错误因素占3%,消防系统因素占1%。由此可见,纵览国内外数据中心故障因素,最常见的不可控非自然因素不外乎:电、水、火。

图:数据来源于uptime Institute官方网站

二十多年来,世纪互联在应对数据中心遭遇不可控非自然因素影响的过程中,制定并验证了许多有效化解这些风险的针对性措施,积累了丰富的处置经验。那么,世纪互联具体是如何做到事前有效规避、事后有序应急的呢?让我们一起来揭晓。

哪些因素影响数据中心的连续供电?

供电连续性对于数据中心来说至关重要,这就好比鲸鱼离不开蔚蓝大海一样,供电连续性直接决定了数据中心核心业务的可靠运行。目前存在可能影响供电连续性的不可控非自然因素有两种:一是限电,二是物理性断电/停电。

限电

自改革开放以来,我国经济建设取得了举世瞩目的成绩。从电力使用角度来看,随着工业化的深入推进,电力消耗量也在持续增长。据统计,2020年全国全年总耗电量达到75110亿千瓦时,同比2010年增长了178.8%,在一些超一线和新一线城市经济集中地区,电力资源出现了供应短缺的现象。在用电高峰期时,电力部门还会酌情对一些用电等级低的区域采取限电措施。

据统计,2020年国内数据中心年耗电量已经超过2,000亿千瓦时,约占全国总耗电量的2.7%,数据中心已成为“载能大户”。在加快数字化发展、建设数字中国的背景下,传统产业和企业的转型离不开数据中心。在国家“双碳”战略目标下,一方面国家对于数据中心的耗能关注度在不断攀升,陆续出台相关政策来控制数据中心的能耗指标(PUE);另一方面,数据中心行业也在积极尝试与探索,坚持践行绿色低碳发展的道路。

物理性断电/停电

造成物理性断电/停电的因素主要包括两种,一种是计划类断电,例如:供配电系统保养或检修。这些情况发生前一般会提前告知,数据中心可以提前做好充足的准备措施。

另外一种就是非计划类断电,例如:自然灾害导致发电厂、变电站以及输送线路遭到破坏;高压供配电设备与线路出现自身故障;工程施工导致供电线路被破坏等等。非计划类断电一般都比较突然,恢复时间也存在很多不确定因素,所以对于数据中心而言,极大可能引发业务中断并造成严重影响。

如何在规划阶段保障连续供电?

配电整体架构采取2N设计降低风险

互联在数据中心规划之初就注重识别这些潜在的外界风险因素,并将风险因素防范的需求输入给互联自有的设计团队和底盘资源团队,从选址上避开限电、物理性断电/停电高风险地区,并在系统架构设计上做好充分考量,进一步提升了互联数据中心抗突发风险的能力。

我们从配电整体架构上采用更加安全的2N架构设计,电源采用来自不同的变电站两路电源,形成AB路互备的架构,增加安全性。在系统之间还会增设中压母联或低压母联,增加AB路的机动灵活性。另外,在两路正式市电配置外,还增加了柴油发电机的应急电源保障设计,在园区内为柴油发电机系统设置专属的日用油箱与满足12小时以上的大型主备储油罐,加强了供电系统的可持续性。在IT业务前端还增加了UPS、HVDC等不间断电源,配置了能够满足业务满载运行不少于15min的电池,填补了供配电系统在切换时所造成的时间空隙,增加了业务连续运行的稳定性。

如何应对突发断电?

智航运维管理平台联动应急预案

一旦发生断电,世纪互联的智航运维管理平台就会自动出发报警通知,接到告警通知的站点运维人员会根据影响的范围判断事件的等级,根据不同的事件等级启动不同的应急预案(互联目前的事件等级从影响程度上分为E级事件和I级事件)。

如遇单路市电中断,利用高压母联或低压母联给中断的一路市电供电;如双路市电中断,柴油发电机组通过自控系统,自动启动并机,投入到供电系统中,如柴油发电机组自动投入失败或不能自启的,世纪互联运维工程师会紧急启动手动启机、并机、并投入柴油发电机组至供电系统中。

柴油发电机组正常投入后,值班工程师会紧急联系预先已经签订了供油协议的供油单位,紧急组织供油车持续配送,保障柴油发电机组持续供给。与此同时,世纪互联运维电气专业的工程师同步联络供电局的对接人,确认导致故障的原因并跟进外供电恢复时间,直至正式市电恢复供电,确认稳定后进行逐步回退至原运行模式。

哪些因素影响数据中心的持续供水?

水冷为数据中心主流制冷方式

由于数据中心IT服务器在正常运行时会产生大量的热量,所以需要一个长期恒温恒湿的环境来保障IT服务器的稳定运行。连续的制冷能力就成了数据中心安全稳定运行不可或缺的重要因素。

目前数据中心在制冷方式上,根据IT负载密度和地域因素在制冷方式上也有很多选择,例如:液冷、风冷、水冷、间接蒸发制冷、直接新风制冷等等。由于技术的稳定性和成熟度,加上水的比热容比空气要高,能够起到很好的节能效果,所以目前数据中心主流使用的制冷方式,还是水冷制冷机组居多。这样一来,数据中心对于持续供水就有很高的要求。

数据中心一旦断水/停水,将会导致冷却塔缺水,制冷系统“罢工”,机房热量积累,出现IT设备宕机情况。同时,加湿系统“罢工”,造成机房湿度过低设备产生静电,导致IT设备板件击穿或短路,危害设备正常运行。

我国是一个干旱缺水严重的国家,人均水资源量只有2300立方米,是全球人均水资源最贫乏的国家之一。然而,我国又是世界上用水量最多的国家。多年来,政府投入了大量的财力、物力,极大程度上保障了淡水资源的合理供应,但是断水/停水的情况还是时有发生,其中包括:计划类断水/停水和非计划类断水/停水。

计划类断水/停水

这种情况通常会提前通知,通知时间根据不同的地区和原因都各有不同,如:

a.数据中心所在区域的市政管网检修与维护,导致临时停水;

b.数据中心所在区域原供水管路改造;

c.数据中心欠费(如果水费没有及时缴费,会导致被自来水公司采取停止供水等情况);

d.数据中心供水超过指标限制(用水指标超过原申请的用水指标的,会导致被自来水公司采取停止供水等情况)。

非计划类断水/停水

非计划类断水/停水一般无法提前获得通知,通常是在事件发生后由相关部门紧急组织抢修,导致这种情况的主要因素包括:

a.北方冬季低温天气导致管道破裂,因为城市管道网络铺设在地下,但是很多地方因为环境因素,管道铺设没有考虑防冻,突然极端天气,导致管道破裂,会导致断水/停水;

b.施工导致。违规施工可能会将数据中心所在区域的供水管路挖断,导致断水/停水。

如何应对断水停水?

应急储水&紧急供水机制保障“降温剂”及时供应

在规划选址时,互联为了应对各类断水/停水情况,会根据当地的水资源情况采取不同的制冷方式或选择水资源丰富的地区,并从系统设计上充分考虑数据中心制冷与加湿系统最大消耗量的前提下,设置不少于12小时的应急水池/水罐/水箱,来确保在断/停水时不会立即对数据中心制冷和加湿造成直接影响。

互联还会在数据中心所在地寻找2-3家供水公司,并与其签订紧急供水协议,在出现断水/停水时,利用大型水车提供连续的水源,保障数据中心供水的连续性。

哪些因素容易导致数据中心发生火灾?

据2020年全国火灾数据统计分析,各地区发生火灾占比:东部地区35.7%,西部地区30.2%,中部地区20.8%,东北地区13.3%。火灾与社会经济发展紧密关联,西部地区地域面积广、城乡差别大,随着经济发展速度的加快,火灾防控压力越来越大。

而数据中心大多集中分布在东部沿海一些发达地区和西部能源密集地区,正好处在火灾高发地区。火灾一旦发生,对数据中心而言就是毁灭性打击,不但会造成重大的经济损失,还有可能造成严重的人员伤亡和社会不良影响。

导致数据中心发生火灾的主要因素通常有:

a.静电会引起火灾,通信设备的运转以及工人所穿的衣服都会产生静电,如果未正确处理机房接地并形成等电位,则会发生静电传导,容易产生火花并点燃周围的可燃物,从而引起火灾;

b.机房内使用或存在可燃材料;

c.电缆故障或短路,过载和过大的接触电阻会引起火灾;

d.雷击和其他强电的侵入会引起火灾;

e.机房中配电系统、电气设备、空调和其他设备的故障可能会引起火灾;

f.数据中心外部的其他建筑物着火时,火势通过机房外部的维护结构,门窗和通风管蔓延到机房。

世纪互联如何应对潜在火灾?

严格选址程序&高防火等级建筑设计护航数据中心远离火灾

互联在数据中心选址阶段,有着严格的考察程序。在初步选定地址后,互联专业调研人员会与政府规划部门进行沟通,了解所在地址的城市规划,包括周边用地性质与未来招商引资的方向,确定选址周边3千米内,未来没有火药炸药库、化工厂、加油站、油库等易燃易爆的单位。

同时会对周边3千米内已有单位进行排查,对火药炸药库、化工厂、加油站、油库等进行识别规避。而在应对已经建成的数据中心周边存在类似火药炸药库、化工厂、加油站、油库等容易导致火灾和爆炸的隐患源时,首先确定数据中心核心建筑物与火灾隐患源的直线距离,如不满足安全距离要求,将在核心建筑物与火灾隐患源之间预留出防火区,并增设消防设施,如:防火/防爆隔离墙、消防灭火器、消防器材、消火栓等。确保在外界发生火灾或爆炸时有足够的消防措施能够阻止火势蔓延至数据中心。

在系统架构规划设计方面,互联的数据中心在设计阶段就按照GB50174 A级机房的要求,机房建筑防火等级按照不低于二级设计,主机房与核心设备间配置高灵敏度的吸气式烟雾探测火灾报警系统,此系统可在火灾早期将隐患识别出来。消防系统配置自动触发功能,在烟感与温感同时收到报警信号后,自动喷撒灭火剂。

百密起于选址,万备归于意识,数千互联人共守数据中心防火生命线

完善的消防应急预案守护每一份安心

世纪互联数据中心具有完备的消防应急预案,定期、高频地进行消防演练,并与消防支队保持联动演练,确保运维人员在面对各种火灾场景时都能迅速做出应对。

在数据中心投入运营后,互联也会对于数据中心内的易燃物进行管控,如在机房门口设置检查岗,对于进入机房内的人员进行检查,禁止携带易燃易爆物品进入机房,从源头上消除火灾隐患。

此外,世纪互联的智航平台系统可以对各机房站点的火灾报警点进行识别,可进行风险定位和路线规划功能,当主机房与核心设备间空气中检测出的可燃气体浓度达到预警值时,智航平台检测到火灾风险信号,自动派发工单给到对应的站点,并显示隐患的具体位置点,提供最佳的前往路线。现场运维工程师根据工单的定位与推荐路线找到火灾风险点,并启动相应的应急处理预案,将消防风险消除在摇篮里。并且由总部监控中心进行实时监督,支持调动机房周边消防资源进行支持,全方位地做到了火灾防范。

写在本篇最后

世纪互联自1996年成立以来,在二十多年的运维护航旅程中,一直坚守着以技术驱动IDC行业发展,追求用技术保障客户业务运行安全。从数据中心规划到设计再到运营阶段,经过了众多互联运维人的不懈努力,世纪互联所积累了丰富的运维应急保障经验,成为了互联数据中心稳定运行的重要保障因素。

目前,世纪互联数据中心运维人员已突破1000人,数十年来,世纪互联运维人一直坚守着专业、专注、专心的工作宗旨。每个站点的互联运维人都是年复一年,日复一日,针对应急预案进行模拟演练,这也是互联数据中心安全稳定运行的关键法宝。正如世纪互联运维人一贯提倡的口号——“平时多演练,运维少遗憾!”。(小编在此先卖个关子,在下篇专题报道中详细介绍)

作为IDC行业发展的引领者,世纪互联正在积极推动新一批规模化、标准化、绿色化的高能力数据中心的市场供给,加速满足国内及海外企业用户快速扩张的市场需求。

(0)

相关推荐