分析能力的8个等级帮助IT运维根因分析注入“灵魂”
关键词:IT运维、IT基础设施监控、故障根因
笔者在过去的近十年的工作中发现一个奇怪的现象,那就是大量购买了IT基础设施的用户,平时都不怎么使用它,几乎都成了“聋子的耳朵”---摆设,只是在检查时拿来展示一下,并没有真正的用来实际使用。除了抱怨说报警不准、不可预测等问题外,其实最为主要的问题是软件解决方案本身使用的难度很大。所谓难度很大,不是因为操作复杂,其实更多的是没有一套完整的分析问题解决问题的思路贯穿期间。说白了,就是软件的解决方案只是提供了基本的数据采集和展示手段,并没有给出清晰的分析问题、解决问题的思路,用更加直白一点的话说就是,“这些个软件解决方案没有灵魂!”
我们先从目前的IT运维监控软件的总体架构说起。
“监控、管理、治理”三层架构
这个架构本身已经被很多IT基础设施运维项目和甲乙双方所接受,如下图所示。三层架构分别在基础设施运维中承担着不同的角色。
三层的架构的建设目标分别为:
监控目标:建立业务系统与IT资源的关联关系,保障业务系统的健康运行;降低设备的故障发生率,做好有效控制;提升故障发生后的响应出来效率,快速恢复。
管理目标:加强业务与IT单点联系;IT组织与个人的最大效力发挥和能力提升;完成服务过程的工作量化与绩效考核;合理进行IT资产配置与人力资源的管理和调配。
治理目标:提高IT投资效益;将运维模式转型服务化、系统化。
要想能良好的实现“监控、管理、治理”的架构,并使其良好的在项目中发挥,除了需要IT技术的保驾护航外,其实更需要的是综合的IT分析能力。
这里所指的分析能力,并非是指BI、大数据或AI的技术方法,而是作为一个基础的解决IT基础设施运维的根因分析的分析思维和方法,他们分别对应在“监控、管理、治理”这三个架构层中。和大多数软件解决方案一样,要想能真正的帮助用户在使用软件的过程中方便和实用,在软件的构成当中,就应当是把相关的分析思维和方法穿插其中,让用户能方便的使用软件并发现问题,从而让软件解决方案真正的发挥作用。
而这个分析思维和方法就是这类解决方案的灵魂!但遗憾的是,这类软件厂商都没考虑。
分析问题的能力
你会发现分析方法的能力也存在差异,从简单明了的到高级复杂。按照不同分析方法所能给人带来的智能程度,我们把分析能力划分为8个等级,并一一对应在“监控、管理、治理”的架构中。
这八个分析能力分别为:标准报表、即时查询、报警、预报、统计分析、多维分析、预测建模和优化能力。这些能力并非在这些软件解决方案中完全不存在,而是分别处于不同的页面中,而且也缺乏同意的整合,故而用户在使用过程中无法将其发挥出来,从而也就使得解决方案本身不能被很好的使用,大量的资产也就被束之高阁。
笔者在多年的实践中,形成了一套完整的分析问题和解决问题的思路,并将其在各厂家的运维解决方案中实践,帮助多家的客户解决其实际的使用,并帮助其规划和拓展运维的能力,使其原本束之高阁的监控管理个流程管理系统充分的发挥作用。下面简单的介绍一下这八种分析能力。
1. 标准报表
回答的问题是发生了什么?什么时候发生的?那里发生的?怎样发生的?采取了什么?……等等,这是监控软件抓取的各类基本数据。
这些数据通过一定的报表来体现,它们一般是定期生成,用来回答在某个特定的范畴发生了什么。这是众多软件解决方案都能提供的,但也是参差不齐的,甚至因为报表技术的不同,常常一张报表需要开发好几个工作日。
从某种程度上来说它们是有用的,但仅有这些是无法用于制定长期决策的。
2. 即时查询
回答的问题是有多少数量?发生了多少次?在哪里?处理流程如何?档案资料、汇总?……等等
即时查询的最大好处是,让你不断提出问题并寻找答案。
3. 警报
回答的问题是什么时候该有所反应?现在该做什么?怎么处理?有何影响?……等等。
警报可以让您知道什么时候出了问题,并当问题再次出现时及时告知您。警报可以通过电子邮件、手机、微信、短信、仪表盘上的红色信号灯来展示。
4. 多维分析
回答的问题是到底出在哪里?我该如何寻找答案?
通过多维分析(OLAP)的钻取功能,可以让您有初步的发现。钻取功能如同层层剥笋,发现问题所在。
5. 统计分析
回答:为什么会出现这种情况?那里经常会出现这种情况?他们对业务和系统稳定有何影响?我错失了什么机会?……等等。
这时您已经可以进行一些复杂的分析,比如频次分析模型或回归分析等等。统计分析是在历史数据中进行统计并总结规律。
6. 预报
回答的问题是如果持续这种发展趋势,未来会怎么样?还需要做什么?什么时候需要?资源调配是否合适?未来如何安排资源?……等等。
预报可以说是最热门的分析应用之一,各行各业都用得到。特别对于IT运维来说,能够准确预报故障和资源情况,就可以让他们合理安排工作、调配资源、维修设备、扩容安排等等,既不会出现零时性的不可预测的故障,也不会过于浪费资源。
7. 预测型建模
回答的问题是接下来会发生什么?它对业务的影响程度如何?……等等。
作为IT运维部门,需要确保内部和外部客户的各类正常使用,在业务、研发等部门或者零时性的视频会议需求等大带宽的需求时,那些资源可以调用,那些稳定性不够或性能不够,那些会影响什么业务,如何划分资源……等等,预测型建模能够给出解答。
8. 优化
回答的问题是如何把事情做得更好?对于一个复杂问题来说,那种决策是最优的?
优化带来创新,它同时考虑到资源与需求,帮助您找到实现目标的最佳方式。
总结:
本文阐述了分析问题的能力在IT基础设施运维中的运用。通过在现有厂商的IT监控管理和流程系统抓取的资源基础上,针对“监控、管理、治理”不同的管理阶段,采用统一的分析问题的方法,可以帮助其系统充分的发挥作用。帮助现有的IT基础设施系统注入“灵魂”。
ICT销售与大客户联盟