OVH数据中心失火事件关于运维管理的思考
OVH是除亚马逊、微软、Google之外的全球体量最大的云服务商和托管服务商之一,欧洲最大的。在全球拥有27个数据中心,起火的区域总共有4个数据中心,发生起火的SBG2被完全烧毁,SBG1的建筑物部分受损。
火灾发生后一直关注火灾原因,第一反应是蓄电池,数据中心最易燃的部分,虽然目前还没有正式的官方公告,但是各方面的情况基本指向了UPS及蓄电池。
细节1:发生的前一天,现场刚对7号UPS进行了维护,起火是7号和8号UPS。
细节2:OVH的工作人员在晚上23点42分响应火灾警报,但数据中心受影响的部分已经烟雾弥漫,火灾预警系统滞后严重,疑似故障或者灵敏度问题。
教训和启示:
1、本次火情,疑似部分客户设备主用、灾备服务器在一个机房楼或者主备云服务器在一个机房楼,导致约360万网站出现故障, 约1.5万名客户的资料可能受到影响,部分客户数据完全丢失且无法恢复。
启示:现有大部分数据中心都是T3及以上级别,供电、网络等基础都有保障,但是客户在实际上架时,会存在部分设备采用单电源、单光纤接入等情况,单路的断电、单光纤中断都会对业务造成影响,此部分在上架时一定要提前告知客户,尽量整改。
2、事件中有提到火灾烟雾已经很大后,火灾报警才起作用,疑似系统故障或者灵敏度不够。
启示:现有数据中心,基本都会在正常烟温感报警系统的基础上,安装极早期预警系统,电池室等还会安装氢气、硫化物等专项检测探头。但是部分数据中心缺乏对这些检测器灵敏度和准确性的校验,甚至长期不校验,延误火情的发现。
3、OVH故障疑似也是UPS、蓄电池引起
启示:数据中心火灾中蓄电池原因占比很高,而且起火快,一方面要针对蓄电池、储油箱等要定期完善针对性的防火预案,另一方面要针对夜间场景,组织消控和相关专业做好定期的联合演练,确保现场每个人第一时间知道应该做什么。
4、疑似前一天刚做过UPS系统的检修
启示:所有系统,在做更换、割接、改造之后务必要做相关测试和一段时间的观察,这也是容易被基层忽略的一方面。
5、火灾发生时间在夜里23点30分左右,也是人比较疲惫的时间段
启示:火灾是突发的,各岗位务必保持好敏感度,确保第一时间发现、第一时间处理。管理人员要做好检查和抽查工作,特别是周末和夜间。
6、据了解,OVH的IT设备上架和部分巡检已经智能化。
启示:人在日常维护和巡检中是极其重要的,虽然数据中心都在大力推进智能化、无人化,但是人的作用不应该被忽略。一些潜在的隐患,设备是无法检测的,比如气味的变化等。
7、要加强预火灾源头的控制
启示:我们在人员进场时,特别是对外来施工、调测人员,安保务必要加强园区禁烟的告知、安检要加强对打火机等隐患物品的检查,要加大对火灾源头的管控。
华为、OVH都是国际知名企业,制度和管理都很完善,但是松山湖实验基地、OVH数据中心也会因为各种原因产生火情,而一般数据中心企业与他们相比在管理上还有差别,所以关于安全生产工作我们如何重视都不为过。