刚刚,通讯业爆出重大事故!

来源:5G

本周,移动通信网络发生了恐怕是有史以来最大的“黑天鹅”事件——加拿大第一大移动通信网络运营商Rogers Wireless及旗下Fido Solutions于加拿大东部时间4月19日发生超大规模断网。这一重大事故有哪些显著特征?根因何在?对于5G时代有哪些“血”的教训?

1、三大“致命”特征

① 此次宕机断网范围甚大

综合Rogers发布的官方声明以及众多加拿大媒体的报道看来,此次断网是加拿大全国范围的,近千万的用户受到影响,(加国男女老少总人口才3000万)

② 断网的持续时间非常长

到底有多长?我们可以大致估算一下:

Rogers发出以下这份紧急声明的时间是当地时间4月19日早上5:08。其中表示“我们的团队正在迅速工作,以尽快恢复服务”。

但是直到当天晚上的7:47,Rogers的移动通信通话、短信及数据服务“才开始”恢复,而且Rogers表示“还需要数个小时的时间,(加拿大)所有用户和地区才能完全恢复”。Rogers的这一紧急声明,具体如下图所示。

另据加拿大《全球新闻》报道,当天晚上的11:00,Rogers通过社交媒体发布的声明显示仍然尚未完全恢复。

然而故障开始发生的时间点并非是当天早上5:08。加拿大媒体报道称,专门跟踪移动通信网络故障问题的“Downdetector”给出了Rogers此次故障的用户报障趋势图的一部分(如下图所示),从图中看来,至少在当地时间4月18日晚上9:00,断网就开始发生了。

综上,此次Rogers移动通信网络加拿大全国范围断网,从当地时间4月18日晚上9:00持续至4月19日晚上7:47之后的数个小时(19日晚上11:00还没完全恢复),大概26个小时。

代表系统正常运行时的电信级可靠性,须达到“5个9”的电信服务能力,这意味着一年的业务中断时间加起来不得超过5.26分钟。然而Rogers此次的全国断网竟然持续了如此长的时间。

③ 断网的负面影响极其大

从众多加拿大媒体的报道看来,Rogers全国范围的长时间断网导致诸多严重后果。一是人们无法通过电话完成沟通。二是极其影响公共安全,用户无法正常使用“911”电话。三是无法线上预约新冠疫苗以及其他医疗服务。四是学生无法上网课。五是阻碍了经济活动,甚至,加拿大多伦多大学教授Brett Caraway表示,Rogers此次断网对加拿大经济产生了重大负面影响。从加拿大媒体的这些报道看来,此次断网对于加拿大社会经济几乎各领域均带来致命性的打击。甚至有媒体表示,对于现代社会而言,断网与断命没什么两样。

2、“罪魁祸首”何在?

如上文所述,“波及加拿大全国范围及近千万用户”、“持续很久才完全恢复”、“造成社会经济活动近乎停滞”是Rogers此次断网的三大“致命”特征。

能够有能力造成全国断网,而且有超强能力让社会经济活动近乎停滞,从移动通信网络的整体架构看来,是核心网出了问题

加拿大《全球新闻》报道称,从Rogers首席技术官Jorge Fernandes发布的声明看来,此次断网的“罪魁祸首”(根因)在于爱立信最近所进行的软件更新。美国媒体当地时间4月21日也作了相关报道(如下图)。

从“软件更新”这一表述,再结合此次断网的“超大范围”与“严重后果”看来,Rogers的移动通信核心网络已经实现了基于NFV的软硬件解耦以及网络功能虚拟化/软件化。因为在网络云化后,复杂性从此前的硬件转移到了软件。

Rogers此次断网“持续很久才完全恢复”这一“致命”特征,不但说明技术水平和服务能力很重要,也更凸显了云化核心网的可靠性与稳定性之不可或缺。

3、5G时代,“血”的教训

Rogers此次“致命性”的断网,再次给全球移动通信行业敲响了警钟——核心网规模云化后,尤其是在5G时代,运营商和设备商必须尤其重视核心网的可靠性与稳定性保障。

一方面,从核心网整个发展历程看来,网络云化“天然地”给核心网的可靠性与稳定性保障带来巨大挑战。在自2015年越来越多移动通信网络运营商选择基于NFV部署云化核心网以来,网络“黑天鹅”事件“频发”且明显要比传统核心网时代多得多,牵一发而动全身的核心网在云化后频频造成整个网络的重大故障并带来严重后果。

而另一方面,网络云化正在不断深入,当前运营商的核心网络建设整体上处于虚拟化到资源池化的优化阶段,而在5G时代,NFV势必将会得到加快部署,实现从“云就绪”到“云原生”的演进,预计在此过程中的5G时代,运营商及设备商对于核心网的可靠性与稳定性保障将面临越来越巨大的挑战。

一是5G时代对于核心网可靠性与稳定性保障的重要性更突显。5G将与实体经济深度融合,将促进智能联接、云网融合等贯穿到各行各业生产经营各环节,充分发挥对经济发展的放大、叠加、倍增作用,激发经济增长新动能。这使得5G核心网要使能网络全连接、全业务,提供“网络即服务”的能力,须以“网络为中心”的服务模式转为“客户+云双中心”新型服务模式,基于云化、虚拟化等关键技术按需提供差异化的能力和服务。从而如下图所示,5G核心网的控制面网元AMF、SMF、NRF、AUSF以及UDM等网元将集中云化部署在数据中心,可谓“心脏”和“大脑”。

核心网一旦出现事故,极易发生信令风暴,造成大面积瘫痪,引起Rogers类似事故。总之,一旦运营商和设备商对于5G核心网的可靠性与稳定性保障不力,后果将不是上文第1部分的“严重”,而将是“不堪设想”。

二是5G时代对于核心网可靠性与稳定性保障的要求将会更高。5G核心网在支撑5G网络建设和承载5G业务方面起将到不可或缺的作用。在5G SA核心网规模商用的元年(2020年),产业界主要负责提供满足3GPP Rel-15的5G核心网设备。而后续基于Rel-16 及Rel-17的5G核心网将实现实现eMBB、URLLC、mMTC三大场景网络能力,全面支撑5G面向垂直行业的发展。行业市场呈现需求多样化且差异化极大的特点,工业制造、交通、电力、安防、金融等众多垂直行业领域,对于5G网络的可靠性与稳定性有着很高的要求,比如在电力行业中,除了时延,差动保护对于可靠性要求也非常高——须达到“6个9”的可靠水平。可见,赋能千行百业,除了要求5G核心网的系统架构灵活易变,更是要求其高度的稳定可靠。

总之,5G引入新的网络架构来全面支撑运营商与垂直行业合作的新型商业模式,为通信产业链向各行业领域延伸和创造新的盈利模式提供广阔的发展空间,很多应用场景需要5G网络保证可靠性与稳定性,极致的业务体验需要极致的可靠性来保障。承担了通信控制、用户管理、切片编排、媒体转发功能的核心网就是5G网络中的“心脏”和“大脑”,如何提供可控、可管、可信的可靠核心网,是5G核心网商用必须要考虑的关键。如果现在不重视,未来出问题的概率将会大大增加,并且届时只能像Rogers首席技术官Jorge Fernandes在全国宕机断网后才想起发布声明瑟瑟发抖地说customers是valued的。

4、宜持续加大投入核心网稳定性

5G网络将连接万亿级设备,服务各行各业,直接关系工业生产,这意味着核心网的任何故障都将造成严重的破坏性事件。网络云化是技术驱动的,云计算技术的复杂性、IT技术迭代升级的短周期、IT人才的匮乏,都使运营商将面临更为复杂的技术问题,需要运营商与设备商共同解决。

近年来,在核心网云化规模上量后,电信网络“黑天鹅”事件频发,凸显出核心网可靠性与稳定性对于5G网络商用至关重要,运营商和设备商对于5G核心网可靠与稳定的持续增强将是不可或缺的。提升核心网可靠性与稳定性是一个持续改进优化的过程,没有“最可靠”,只有“更可靠”,所以运营商和设备商宜持续加大投入核心网的可靠性与稳定性,全力保障“5G改变社会”。

(0)

相关推荐