主编解读(三):事件和变更流程—T/CECS761-2020《数据中心运行维护与管理标准》
数据中心的运维需要建立运行、维护和管理的工作制度和流程。支撑数据中心开展正常的运维流程基本上包括:服务台、事件管理、变更管理、问题管理四部分,本讲重点介绍事件、变更两个流程的要点。
一、事件管理
事件管理是数据中心运维管理的重要流程,事件管理包含了事件的发现、事件的处理、事件的恢复和事件的回顾。在事件管理流程中应关注以下的环节:
1、什么是事件
数据中心每天都有许多服务请求,这些请求统称为事件,通常这些事件分为业务、工作需求和运行故障三种形式,本标准侧重于运行中发生的故障事件的处理管理流程,因为这类的事件将导致服务中断,会引发财产的损失、用户的利益、企业的声誉。
2、事件的分级
在数据中心运维中,通常是按照系统来进行事件的分类,同时需要对事件进行分级,分级的目的就是针对不同等级的事件,调用相应的资源加快处理的速度和控制事件事态的升级,减少服务中断的时间和损失。目前不同行业或单位对事件分级是有不同的方式,比如事件对服务的重要性、事件影响面、事件造成的损失、事件的持续时间、与用户签订LSA协议要求等等。如何制定事件的分级,本标准给出了容忍度的分级方法论,事件的分级见下表:
采用容忍度的分级方法,可以很好的覆盖所有的数据中心对事件的分级要求。
3、事件处理优先级
在数据中心运行中,会出现多个事件同时发生,需要优先处理重要的事件和紧急的事件因此需要制定事件处理的优先级,加快服务处理的时效和提升服务质量。事件优先级需要关注两个维度:一是影响度,影响度是指影响用户服务的范围、业务的数量和造成的损失;二是紧迫性,紧迫性是指事件对应的服务级别、服务系统的重要性、事件的持续时间等。
4、事件升级
在处理事件时,会出现随着事件处理时间增加导致事态的扩大,或者在处理事件中引发新的事件,因此需要对事件进行升级。
事件的升级分为职能性升级和结构性升级两种:
职能性升级:调动更多的资源(高级、资深或厂家的技术人员、跨部门跨地区的协作)加快事件的处理。
结构性升级:升级到上级或更高的管理部门,通过管理层的权力调动需要的资源,加快事件的处理速度,并做好与受影响用户的沟通。
二、变更管理流程
在数据中心运行中会有大量的变更,比如设备的维护保养、更换耗材、设备测试、新系统上线、改造或扩容、故障原因查明后的修复等等,很多系统的变更会需要撤离生产环境或停机处理,有些变更会引发系统宕机的风险,因此需要建立变更的管理流程,控制和降低变更带来的运行风险。
1、严格控制变更
要求变更遵守以下原则:
变更要求审批
变更要有计划安排
变更应避开服务的高峰期实施
变更前应做好测试和充分的应急预案
重大的变更需要取得上一级监管的批准或提前报备
变更前应做好通告和用户的解释工作
2、变更类型
按照变更对运行的影响程度,本标准将变更分为紧急变更、例行变更和标准变更三类。
3、变更审批授权要求
所有的变更都需要建立审批授权机制。不同的变更类型的审批授权机制如下:
紧急变更:工作时间采用一事一审批的方式;非工作时段可采用电子(电话、短信、微信等)审批方式,事后补办流程。
例行变更:可采取定期(如年度)集中预批准的方式,对例行变更请求,集中审核、审批,一次审批年度内有效。
标准变更:采用一事一审批方式,也可以定期或不定期召开变更请求审批会,多个变更请求进行审核和排期审批。
THE END