OVH数据中心失火事件关于运维管理的思考 / 开普饭

数据中心运维管理

88篇原创内容

公众号

OVH是除亚马逊、微软、Google之外的全球体量最大的云服务商和托管服务商之一，欧洲最大的。在全球拥有27个数据中心，起火的区域总共有4个数据中心，发生起火的SBG2被完全烧毁，SBG1的建筑物部分受损。

火灾发生后一直关注火灾原因，第一反应是蓄电池，数据中心最易燃的部分，虽然目前还没有正式的官方公告，但是各方面的情况基本指向了UPS及蓄电池。

细节1：发生的前一天，现场刚对7号UPS进行了维护，起火是7号和8号UPS。

细节2：OVH的工作人员在晚上23点42分响应火灾警报，但数据中心受影响的部分已经烟雾弥漫，火灾预警系统滞后严重，疑似故障或者灵敏度问题。

教训和启示：

1、本次火情，疑似部分客户设备主用、灾备服务器在一个机房楼或者主备云服务器在一个机房楼，导致约360万网站出现故障，约1.5万名客户的资料可能受到影响，部分客户数据完全丢失且无法恢复。

启示：现有大部分数据中心都是T3及以上级别，供电、网络等基础都有保障，但是客户在实际上架时，会存在部分设备采用单电源、单光纤接入等情况，单路的断电、单光纤中断都会对业务造成影响，此部分在上架时一定要提前告知客户，尽量整改。

2、事件中有提到火灾烟雾已经很大后，火灾报警才起作用，疑似系统故障或者灵敏度不够。

启示：现有数据中心，基本都会在正常烟温感报警系统的基础上，安装极早期预警系统，电池室等还会安装氢气、硫化物等专项检测探头。但是部分数据中心缺乏对这些检测器灵敏度和准确性的校验，甚至长期不校验，延误火情的发现。

3、OVH故障疑似也是UPS、蓄电池引起

启示：数据中心火灾中蓄电池原因占比很高，而且起火快，一方面要针对蓄电池、储油箱等要定期完善针对性的防火预案，另一方面要针对夜间场景，组织消控和相关专业做好定期的联合演练，确保现场每个人第一时间知道应该做什么。

4、疑似前一天刚做过UPS系统的检修

启示：所有系统，在做更换、割接、改造之后务必要做相关测试和一段时间的观察，这也是容易被基层忽略的一方面。

5、火灾发生时间在夜里23点30分左右，也是人比较疲惫的时间段

启示：火灾是突发的，各岗位务必保持好敏感度，确保第一时间发现、第一时间处理。管理人员要做好检查和抽查工作，特别是周末和夜间。

6、据了解，OVH的IT设备上架和部分巡检已经智能化。

启示：人在日常维护和巡检中是极其重要的，虽然数据中心都在大力推进智能化、无人化，但是人的作用不应该被忽略。一些潜在的隐患，设备是无法检测的，比如气味的变化等。

7、要加强预火灾源头的控制

启示：我们在人员进场时，特别是对外来施工、调测人员，安保务必要加强园区禁烟的告知、安检要加强对打火机等隐患物品的检查，要加大对火灾源头的管控。

华为、OVH都是国际知名企业，制度和管理都很完善，但是松山湖实验基地、OVH数据中心也会因为各种原因产生火情，而一般数据中心企业与他们相比在管理上还有差别，所以关于安全生产工作我们如何重视都不为过。

OVH数据中心失火事件关于运维管理的思考