你听过冰面的破裂声吗?AIOPS带你去聆听运维的细小故障
关键词:AIops、运维、大数据
传统IT运维背景:
当今企业所面临的IT环境越来越复杂, 线上业务创新和业务开发的快速迭代已经成为企业保持增长的主要推动力量。随着业务发展的深入,企业的IT系统也日益复杂。系统中尤其是软件应用系统之间错综的关联关系,使得IT管理和运维人员面对复杂运维体系带来的新问题尤为重视。
用户日常中经常遇到应用系统速度慢、服务资源调配难于管理,系统资源服务中断等问题,在庞大的体系中无法快速准确地定位问题根源,让企业数据中心的管理和维护面临前所未有的挑战。
AIOPS产生原因:
目前大多业务场景已不再局限于本地化垂直的业务架构体系,更多已经融合了公有云和混合云的架构。客户的视野由单一的垂直业务架构管理被迫转业到第三方服务,IaaS,PaaS,SaasS上,新型架构更迫切的是降低管理的复杂性,使资源更加灵活,弹性,及时跟踪为线上业务提供支撑。传统手工方式已经无法满足日益增长和完善业务的需求,人工智能化的运维管理凸显优势。
AIOPS 运维新体验:
当前AIOPS概念非常火热,据全球知名的信息技术研究和分析机构Gartner,在2016年发布的报告中首先提出了基于大数据及算法Algorithmic IT Operations的IT运维概念。
基于人工智能Artifi基于人工智能Artificial Intelligence for IT Operations,通过大数据、机器学习及更多高级分析技术,提供具备主动性、人性化及动态可视化的能力,直接或间接地提升目前传统IT运维的效能。
AIOPS也是个庞大的运维体系,主要解决系统各层面的性能和服务的连续性问题。包括基础架构服务,应用服务中间件和业务应用程序的管理。俗话说千里之行始于足下,不积跬步无至于千里。目前针对于市场AIOPS蓝海,大多数厂商也根据自己的理解专注于AIOPS一片天空。但真正的AIOPS不只是APM,也不是docker,更不是ELK。
华云数创基于架构和服务管理的新起点
颠覆了传统运维,破冰之旅从此开始。
1. 告警响应流程新体验
智能的告警以微信实时响应为基础,一线运维人员通过微信丰富展示(传统短信,邮件告警内容单一)界面实时了解系统健康状态。30S内自动刷新系统故障原因,精准定位告警位置,细化到进程。解决传统模式下业务找研发,研发找运维的倒逼运维体制,最终运维部门总是处在后知后觉的尴尬境地。
智能运维平台的实时报警系统支持灵活的报警规则的设置,并产生不同类型的报警通知,门户网站上会实时显示当前现有的报警,实时刷新,并显示其它报警相关的信息如报警时间、报警阈值和当前值等。不仅如此,平台还保存所有报警的历史供显示和查询;通过短信、电话、电子邮件推送报警信息;构造报警通知接插平台,可以通过清晰定义的接口接插任何报警通知方式,包括微信或任何第三方报警通知的处理模块。用户只需要实现并简单的适配程序,并通过配置文件加载即可。
2. 运维人员责任制
复杂的运维支撑需要人员精准的管理和支持。在流程化管理上Chinacloud使用运维人员责任制的管理模式,使运维人员周期管理明确化,系统化。在后台推送告警和异常以及处理上有明确的指向。此功能关联到后台告警的Email,短信,和丰富的微信平台上。责任划分落实到当值责任人。为企业运维快速响应奠定了管理基础。
3. 健康体检自动化
AIOPS 体现的是智能化,智能化是感知和流程自动化的表现。自动化运维是为了提升了运维时效,大幅度减少人工,提高了精细度。解决没有“判断力”,不能决策,依赖于专家。适应力不足,人工介入滞后的缺点。我们目前的用户要么自己加班的蛮干,要么雇佣庞大的第三方运维团队从事着重复而又没有技术含量的巡检和排查工作。团队的价值被贬,市场竞争激烈等等问题越发明显。如何解脱这一窘境成为我们Chinacloud在AIOPS领域的一个重要课题。目前我们针对于健康巡检,有了全新智能的解决方案。Chinacloud可按照用户在系统中自定义功能进行设置。系统将按照用户自定义方式进行周期性产生巡检报告。并且系统会按照时间顺序归档报告文件,用户可随时查看报告情况。免除原有报告在线下整理,归档保存的操作。报告随用随取。
4. 数据治理整合
数据作为企业信息化建设支撑线上业务重要的载体,大多企业在信息化建设的初期,急用先行的一源一建“烟囱式”管理,导致随着业务的增加,管理难度加大,维护、扩展和升级各个环节均需要人员和资金的持续投入,单机架构无法扩充到分布架构,再加上人员变更,对个人技术能力依赖性强的现状很难得到改善。AIOPS提出重新定义了运维和数据的关系,将数据面向共享(促使内部资源整合,掌握业务全面运行情况),面向流通(打通数据孤岛,提高业务运维流通性),面向管理(方便接入企业内外部各类资源,建立超融合管理体系,实现全架构运维资源管理)。AIOPS 是企业运维智能化转型必经之路。
5. 性能专家治理
系统无论在应用层还是服务层都面临性能瓶颈的风险,庞大的体系,复杂的服务更是需要从线上业务出发,针对于运维体系,尤其提供各种服务中间件性能进行精准管理。专家基于系统健康之上的分析和诊断显得尤为重要,Chinacloud产品供了一个全方位的平台。让系统性能更有保障。
6. 以服务/物理结构展示的新拓扑
我们认为AIOPS一定是以应用服务管理为先的平台。目前系统线上业务的新变革使得我们要从业务,应用/服务,基础架构三维一体进行思考。帮助用户梳理以服务为主的业务逻辑。无论是单体架构,SOA架构,微服务架构;也不局限于物理机,虚拟机,Docker,PAAS服务等。
7. 资源预测
AI系统好比人的大脑,它接收感知,通过一系列处理形成决策,这是“认知”的过程,然后通过反馈给人或执行结果,体现“智慧”及“可视”。我们可以利用大数据和机器学习的算法,对自动化数据采集和呈现加以模型化,使得这一认知过程和预测更加有效用。Chinacloud 产品根据系统指标历史值,学习和总结出系统指标的规律,从而自动预测系统资源,如内存、硬盘利用率等的走势,为运维人员的中长期系统容量规划(Capacity Planning)提供数据支持。
8. 系统异常检测和故障溯源
AIOPS探索的意义就是能预知和感知系统的异常存在,帮助能减少故障发生的概率。往往用户在实际运维中都是以业务端发起毁灭性的灾难才预警,不能及时在业务响应性能出发,这极大程度上体现了手动运维的弊端。复杂的服务结构,繁杂的指标无法在故障前预判。这也导致了系统运维不智能的表现。改变不了运维思维逻辑,从而更不能改变运维管理的体系。Chinacloud异常检测和故障溯源功能不仅能让异常清晰可见,更能根据关联性找到节点异常直接根因。如图阴影部分为预测的区间值。红点是异常点,它们都处于预测区间之外。预测时灰色的基带为历史运维数据机器学习的参考值。结合自动异常发现和故障溯源功能推论出故障点。系统给出参考建议。
9. 基于多手段的故障分析工具(日志,指标)
在日常故障诊断中,传统手工需要登录到各个系统中,按照系统分类和各自运维体系下的诊断工具进行汇总日志,指标。无法统一集中展现,更无法进行聚合和对比。日志类聚,对比,关键字搜索,自定义字段,日志上下文关联,日志筛选展现了统一平台下的综合分析智能体现。
另一方面Chinacloud产品中集合了指标的展现功能,从量化的指标数据采集中分析问题的原因。主要包括服务器硬件指标,操作系统(Linux, windows 等)的相关指标,网络出口带宽相关指标,数据库和存储系统,常见中间件的性能指标,业务应用的自定义指标参数和自身Angent指标监控等。无论从查询式的数据采集,SDK采集,从第三方数据源采集都能很好满足数据的来源。提供主流产品监控参数的模板,方便用户快速进入场景。
10. 自反馈学习和运维知识库
AIOPS体系的庞大更需要运维思维的完善,知识的传承需要统一管理,为了更好的定位和解决问题,我们认为系统永远不能代替人的决策,但决策的依据是我们追求完善的目标,更是AIOPS追寻的方向,华云数创在AI智能方面走在了时代的前列,专注于解脱运维的手工传统,让运维智能化,运维简单化,知识体系化。因此产品在运维知识库功能中包含了运维中遇到的问题、故障的现象(如某些特定指标的飙高、日志的特定内容如exceptions, erros等)以及相应的解决方法。我们一直认为传统的知识库是专家系统的形式,是通过人工专家用手工的方法构建的规则引擎,规则内容都是定死的,难以演进、扩展,更没有自动学习的功能。而智能运维平台建造的运维知识库平台是一个异构(heterogeneous)、多来源和自适应的系统,其观察对象可以是指标,日志,业务文件和时间等等,知识来源于互联网上的权威知识,专家的知识,运维人员执行排障流程的输入和反馈等等。所有这些输入作为特征向量进入机器学习系统来加强、提升和演进运维知识库的知识深度和广度,持续提升系统的解决问题、提供方案的精确度。
总之,我们认为AIOPS是一个逐渐成熟演化的过程,随着用户业务应用场景和运维问题逐渐复杂化,促使我们也会分阶段进行满足用户运维的智能化,便捷化,效率化需求。这个过程不是一个一步登天的短暂方式。万丈高楼需要坚实的地基。不积小流,无以成江海,无论是基础架构,还是服务治理,乃至应用的分析。都要有一个广阔的平台为基础。华云数创正是这个平台的构造者。我相信不久的将来智慧的我们会走的更远。