数据中心数字化运维实践

当前云计算、AI智能等数字化技术的快速发展,数据的说服力已经远远超过人们凭直觉和经验得出的结论。并且,管理学大师彼得、德鲁克,曾说过“你无法衡量的东西,你也无法管理。”当前在数据中心基础设施运维领域数字化运维、智能化运维已经成为一种潮流,数字化运维管理带来了很多新思路和新理念,推动运维管理工作向更高的水平发展。数据的力量很强大,但是人们更多的还是靠经验和实践做出的决策。基于统计的数据分析由于理论条件的约束,使用不当会导致结果存在偏差。使用运筹学的优化方法或者仿真建模的方法,可能导致局部过度优化,忽视整体系统的平衡。有人曾经戏言“数据分析都是坑”。因此, 我将自己在数据中心工作中应用数据分析的一些实际案例与大家分享。希望对大家能够有所帮助。一、基于离散数据的运维数据分析案例:1、数据中心某机房设备故障情况,连续统计了12周情况如下:时间123456789101112故障数量021000010000随机事件故障111随机事件正常000000000实际工作中,我们期望通过数据分析,得到量化随机事件的函数,将随机事件可能出现的结果赋予了一个数值。根据量化的数值结果来预测未来可能的结果。使用离散数据的0-1分布进行数据分析,尝试回答运维人员关心的问题。问题1、运维管理人员希望了解1年内,该机房有多少周出现发生。假设每周是否发生故障这个随机事件符合贝努力(0-1)试验的条件。二项分布就是重复n次独立的贝努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重贝努利试验使用python进行统计分析计算

二项分布的期望 E(Y)=13.00结论:某机房一年之内,预计有13周发生设备故障。问题2、运维管理人员,希望了解该机房出现发生故障的间隔时间状况。在n次伯努利试验中,几何分布的定义是试验k次才得到第一次成功的机率。进一步解释为,前k-1次皆失败,第k次成功的概率。通过几何分布我们来确定故障第一次发生的贝努力试验概率。由于贝努力试验的随机事件相互独立,我们可以近似的认为故障间隔时间为几何分布。

结论:某机房一年之内,发生设备故障的间隔时间为不超过6周。问题3、运维管理人员,希望了解该机房出现发生故障的数量状况。泊松分布描述的是已知一段时间内事件发生的平均数,求某个时间内发生的概率。泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。我们假设机房故障数量月平均2次,观察机房故障数量每月1-12次的概率情况。

结论:某机房发生每月故障5次以上故障的次数的概率小于5%; 每月不发生故障的概率为5%。预计每月发生2-4次的故障数据中心某机房52周实际运行状况如下:时间123456789101112故障数量021000010000时间131415161718192021222324故障数量001430100000时间252627282930313233343536故障数量122006020000时间373839404142434445464748故障数量020010200020时间49505152故障数量0010预测故障发生周数13周; 实际估算发生周数18周预测故障间隔2-6周; 实际故障间隔2-5周预测每月发生故障2-4次; 实际每月平均故障次数2.8次基于贝努力(0-1)试验的概率计算,要求事件发生保持独立,每一次独立事件发生的概率保持不变。在现实的数据中心运维环境中几乎不可能做到这两点,为了确保对随机变量分析的结果能够应用需要运维人员,以此为基准根据实际运维状况进行修正。作者简介

江伟1978.2.3 高工 北京联通运维经理,从事数据中心基础设施维护管理工作20年,具有丰富的维护管理经验和数字化运维管理经验。

(0)

相关推荐