数据中心DCIM发展趋势—AI 与DCIM 的结合

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
AI 是一个宽泛的概念,人工智能的目的就是让计算机能够像人一样思考。机器学习(Machine Learning),是一种实现人工智能的方法。
深度学习(Deep Learning),是一种实现机器学习的技术,深度学习是机器学习研究中的一个新领域。
机器学习能力,特别是深度学习,可以不依赖人脑对数据理解和预测的模式来检测大量的数据和它们内部的模式。它还可以用来预测未来将重复出现的模式。数据中心都已经配备了良好的设备,数据中心安装的传感器可以提供大量关于IT 性能和环境因素的实时数据和历史数据。
AI、深度学习、机器学习,三者之间关系,最直观的表述方式如下图所示,最先出现的是理念,然后是机器学习,当机器学习繁荣之后就出现了深度学习,今天的AI 大爆发是由深度学习驱动的。
国外的谷歌公司,曾使用神经网络技术优化了其数据中心的冷却系统。系统的几千个感应器对数据中心冷却系统每5 分钟截取快照数据,然后输入云上的AI 系统,用于预测潜在的动作如何影响将来的能耗和选择最佳选项。这些数据被发送到数据中心由本地控制系统进行验证,然后进行实施。AI 学习利用冬天的温度条件,减少了数据中心内部的制冷所需能源,而且产生比采用普通水获得更好的制冷效果。以上的措施减少了该数据中心40% 的制冷费用和降低了15%的PUE。
规则不会随着时间变得更好,但人工智能可以做到。人类和简单基于规则的系统可以应对任何稳态情况,但当环境发生变化时,他们会以“波涛汹涌”的方式激烈反应。但AI 能够预测变化,所以它在环境变化时可以做得更好。
目前机器学习是处于平台的初始数据处理阶段。在这个平台上, 从传感器和仪表传输来的原始数据进行规范化、清洗、验证和标记,然后被送入预测建模引擎。从简单实用的步骤开始,比如使用模式匹配来控制温度和收集制冷剂泄漏的现场证据。在电力系统中,使用AI 技术来识别和隔离故障。
未来,人工智能可以学会自动移动IT 负载,使用计算历史记录的成本来进行智能负载平衡或容器的编排,从而降低特定应用程序的能源成本。
还可以使用人工智能对声音进行分析,为数据中心的基础设施创建声音档案,如果有声音听起来怪怪的,那么可能该设备的运行出现了异常。例如通过对变压器噪音模式的学习,可以运用声学技术监测变压器的状态。这种方法使AI 能够超越人类专业知识,并获得人类认知永远无法理解的知识,可以在故障发生前预测到它们。
AI 还有一些无形的好处,比如可以提高20% 左右的资源利用率,同时减少人为失误。
未来,可以使用人工智能来预测数据中心是否有任何问题发生,并使用人工智能来自我恢复。
DCIM 目前已经可以采集各子系统监控对象的动态监控数据和静态属性数据,并对这些数据进行细化、高频的存储。随着AI 的发展,DCIM 后续将更多地承担数据挖掘和数据分析的责任。这些数据将由不同需求产生的不同的上层应用提取、梳理、分析。分析后的结果将用于平时的运维管理,为节能改造,优化数据中心设备运行提供重要的依据。

文章来源:数据中心基础设施管理技术白皮书
(0)

相关推荐