从阿里云又又又宕机谈测试
阿里云又又又一次宕机了。
3月2日 23:55 分左右,阿里云疑似出现大规模故障情况,华北相当多互联网公司都炸了,一众APP和网站陷入瘫痪。
被从暖和的被窝里叫醒的程序员们、运维们纷纷起来干活了,还没有睡的夜猫子们纷纷出来吐槽了~
经过将近3个小时的奋战后,阿里云官网公告称经过紧急排查处理,已经全部恢复。
其实这不是阿里云第一次出现大规模的故障了,在2018 年 6 月 27 日 16:21 左右,阿里云也曾出现重大技术故障。在2016年阿里云也同样出现过这次一样的IO HANG情况。
当然其他云服务厂商情况也不是那么乐观,仅去年一年,全球主流云计算厂商就曾发生数十起宕机事故,原因更是五花八门,谷歌云曾因自动化失效导致宕机、AWS 曾因数据中心出现硬件问题导致宕机、微软 Azure爱尔兰数据中心曾因高温和打雷陷入宕机、腾讯云因运营和硬盘故障陷入宕机.....
每次云服务厂商出现故障,各依赖于云服务的企业们就如同遇到了滔天海啸与地震~
作为没有被叫起来加班,但是同样也要因为云服务故障而胆战心惊的测试来说,有什么方法可以帮助我们可爱的程序猿哥哥、运维哥哥们遇到这种情况也能够不慌不忙,镇定自如的解决呢?
第一,运维代码一样要经过严格测试才能上线,以避免出现因为运维代码发布错误的版本或者操作而导致宕机。
第二,在代码上线之前经过严格的测试,以及定制相对的解决方案。这里的测试,不仅仅是功能或者性能的测试,在DevOps中,是会有针对突然出现断电,磁盘损坏等情况的测试。
第三,要建立完善的监控机制,也就是说一旦出现宕机事件,立马能够报警通知相关人员解决问题。有了完善的监控机制,甚至能够很快的定位问题,减少维护时间。
第四,建立多云架构,选择多个厂商,以避免当单一的云平台出现问题时,企业损失惨重的情况出现。毕竟东方不亮西方亮嘛,阿里云挂了,腾讯云还坚挺着也行嘛~
以上纯属芒果个人看法,有更好的建议,欢迎多多留言,大家一起讨论哟~
精益技术 赋能过程