宕机时间少七倍,揭秘AWS基础设施的运维之道

从2006年8月份正式开通云服务,到2020年第三季度收入达到116亿美元,同比增长29%,年化收入达到460亿美元。AWS营收规模在一个IT产业史上堪称神话,这背后数据中心等基础设施功不可没。如果没有强大的数据中心作为支撑,为全球数以万计用户提供各种各样云服务,AWS不可能连续多年保持如此惊人的增长速度。

一直以来,AWS的数据中心无论是数量、规模、设计、运营都充满神秘感,外界对其是知之甚少,也是业界众多伙伴十分感兴趣的。在今年的AWS re:Invent大会上,AWS 全球基础架构和客户支持资深副总裁 Peter DeSantis甩出诸多干货,详细介绍了AWS的数据中心在面向全球服务众多用户是如何做到稳定、定制和环保的。

任何设备都会坏

数据中心等基础设施是云服务商的核心命脉,由于大部分云服务商随着业务的增长,其数据中心的规模和设备数量也会随之膨胀,带来的就是数据中心故障和宕机风险的增长。AWS作为全球云计算巨头,其数据中心规模无出其右,它又是如何看待风险以及解决风险的。

“不要去回避各种故障,因为任何设备都会坏,你需要做的就是预测什么时候坏,并且做好准备。”--这就是AWS在数据中心基础设施运营和维护的核心原则。也正是在这个原则的指导下,AWS一年的平均宕机时间比2018年规模次大的云端供应商少七倍之多。

面对规模如此之大、复杂性如此高的数据中心基础设施,AWS的首先思路就是降低各种设备的复杂性,比如发电机组的配电系统和UPS,这些都是传统厂商生产的通用型产品,往往拥有丰富的功能和极高的复杂性,“部件越复杂的东西意味着坏的概率就越大。配电系统的控制系统是嵌入式系统,非常复杂,很多功能其实并不是AWS所需要的。” AWS大中华区产品部计算与存储总监周舸介绍道。

为此,AWS的思路就是降低产品的复杂性,既符合自身业务需求,又提升了运维的简易性。比如,AWS针对自身情况做了一套控制器系统,一旦有问题发生,可以马上进行修改,做到尽量不影响到用户业务;又如,AWS将数据中心UPS电池做小,通过自己的软件来控制UPS,当每个单元设备出现问题时,其所带来的麻烦也下降很多。

除了数据中心部件级的运维之外,AWS对于整个地理区域的可用区都有着全面的保护机制。据悉,AWS 细分地理区域和可用区(AZ),这与其他云提供商有很大不同:首先,远距离的可用区设置,可以降低自然灾难(火灾,水灾…)带来的业务中断风险;其次,用户选择最近站点接入以低延迟访问AWS云资源;第三, AWS分别管理每个区域中的运维,将故障分割;

“从最小的零件,到整个可用区的架构,AWS是一层层思考如果发生了故障或者宕机会给用户带来哪种影响,并且尽量不影响到用户的业务。”周舸补充道。

定制芯片,让数据中心发挥极致

在数据中心等基础设施中,芯片担当着计算的重任,对于整个数据中心的能耗、效率、性能、运维等都有着重要影响。同样,AWS在针对不同应用和需求定制芯片上也在持续发力,持续打造数据中心的极致能。

在AWS Nitro方面,已经成为数据中心物理资源的一个抽象层,AWS 云平台通过 AWS Nitro 控制器向 Amazon EC2 添加网络,存储和安全资源。今年,Nitro已经成功发展到第四代。

在刚刚推出的Amazon EC2 Mac计算实例中,就是AWS通过在在 Mac Mini 上安装了 Nitro Controller,没有 Hypervisor 的Nitro Controller可以安全快速地连接到 Mac Mini。那些为iPhone、iPad、Mac、Apple Watch、Apple TV和Safari开发应用的开发人员,可以通过使用EC2 Mac实例,在几秒钟内配置和访问macOS环境,根据需求动态扩展容量。

AWS Graviton 是基于 ARM 的芯片组,今年推出了AWS Graviton 2作为通用处理器;高性价比的 AWS Graviton 2 不仅可以很好地处理前端工作负载,对于 IO 密集型工作负载也很友好。

事实上,当前芯片处理器已经发展到一个十字路口,最近几年以来,芯片处理器能力的提升一直不太明显,芯片频率提升在减慢,取而代之的是芯片核心数在不断提升,处理器走向并行处理的趋势明显。

“有三个条件在影响多核处理器的发展。首先是多核操作系统;其次是多核应用程序;另外一个就是微服务。2015年之后,容器、无服务等微服务化发展迅速,微服务将工作负载切分的很细,这就对计算资源要求很细,特别是和多核架构。”周舸透露。

现在传统处理器因为需要兼容传统工作负载,所以芯片越做越大、越来越复杂,增加了很多功能,比如SMT多线程控制组件,SMT虽然可以多个线程共享和共用计算资源,但也会带来工作负载不平衡、性能容易受影响以及安全隐患等问题。“Graviton 2这样的多核处理器就能很好地解决这些问题。”周舸表示。

可再生能源,让数据中心走向环保

有人统计,目前全球数据中心的电力消耗总量已经占据了全球电力使用量的百分之三,到2025年,全球数据中心使用的电力总量按现在的电力价格来估算的话,将会超过百亿美元,年均复合增长率将达到6%。随着全球数字化脚步的提速,未来对于超大型数据中心的需求也上升。AWS作为超大型数据中心的运营者,其对于数据中心走向环保的步伐正在持续加速。

环保,也是今年 Peter DeSantis在re:Invent大会上演讲的一个核心议题。

据悉,AWS 致力于以尽可能环保的方式运营业务,并实现全球基础设施 100% 使用可再生能源。AWS 正朝着到 2025 年 100 % 利用可再生能源的道路前进,比其最初的 2030 年目标提前了五年。

为此,AWS 用多项举措来提高用水的效率,减少用于冷却数据中心的饮用水的使用。AWS 通过评估每个 AWS 区域的气候模式、当地水资源管理和可用性以及保护饮用水水源的机会来制定用水战略。

此外,亚马逊宣布了五个新的公用事业规模的太阳能项目,为中国、澳大利亚和美国的全球业务提供电力,一共增加 615 MW 再生能源发电能力,预计每年发电 120 万 MW。

2020 年亚马逊对可再生能源的总投资项目已达到 35 个,装机容量超过 4 GW,这也是目前世界上单一企业在1年内对可再生能源的最大的一笔投资。这些新项目将使亚马逊所拥有的可再生能源的的总装机容量在 2020 年达到 6.5 GW,并成为有史以来最大的企业可再生能源采购商。

事实上,AWS对于数据中心环保的投入,不仅仅是对于自身成本的一直控制,更是践行环保理念的责任体现。面向未来,AWS在数据中心基础设施领域的建设理念必然会影响到全球更多用户和同行,为基础设施发展带来全新的思考。

(0)

相关推荐