核心网运维的前世今生
复位、拔插、倒换、换板、看看传输是否有问题、先切换到备用模块、跟踪一下信令……C&C08,32模,128模,软交换,NGN,SoftX3000……这些熟悉的“通信黑话”是否已经让你梦回那些年核心网运维的日子?
从窄带交换、NGN到2G、3G、4G、5G时代,我们见证了核心网技术的飞速发展,也目睹了各代设备你方唱罢我登场于机房,更收获了一框框满满的核心网运维回忆。
那你否还记得这些年来核心网运维都经历了怎样的发展变迁?是否也在展望今天5G时代又会出现怎样的景象?嗯,我们今天就来聊聊核心网运维那些事吧。
前世篇:我从哪里来?
还有人记得曾经风靡一时的华为拳头产品C&C08交换机吗?这个时代称为窄带交换时代,交换设备由各个功能模块通过内部协议集于一体,且处理业务单一,只处理语音业务。
在那个时代,交换设备都集中部署于中心机房,运维人员就值守在一排排设备旁边,称为近端运维,平时的工作主要是通过操作维护终端进行MML配置,查看告警,统计指标等,头顶上还有一个告警箱,一旦设备有告警就会发出刺耳的声音响彻整个机房。
随着通信技术从传统电路交换向分组交换发展,以及业务从单一的语音向语音、视频和数据等综合业务发展,传统窄带交换机已无法满足人们不断增长的通信需求了,核心网开始进入以软交换为基础的NGN时代。
NGN是一个“融合”的产物,即传统电路交换和分组交换技术之间融合,传统语音业务和新兴IP业务之间融合,也是一种被“拆分”的分布式架构,即把传统内部协议集于一体的产品形态分解为多个功能独立的部件,部件间通过标准化协议通信,且各个部件可以部署在不同的机房或者不同的城市。比如,华为NGN产品就将传统交换板、用户框和中继框等集于一体的产品形态,拆分为核心控制设备SoftX3000、媒体网关AMG、中继网管媒体网关TMG/通用媒体网关UMG等多个部件。这就是大家耳熟能详的“信令与媒体相分离”、“承载与控制相分离”。
在这种架构下,一方面,各个网络部件可以来自不同的厂商,运营商可以从多厂商采购设备组网;另一方面,核心网网络架构也从集中式向分布式演进,比如,SoftX3000部署于中心机房,而位于边缘接入层的AMG可拉远部署于离用户更近的位置。
NGN分层架构
这些改变对网络运维提出了新要求。首先,由于AMG等下沉到边缘,无法近端运维,需向远端运维演进,要求网管系统能对整个分布式网络实现集中告警采集和监控;其次,由于网络中存在多厂家设备,要求能快速定界确定哪个厂家的哪个设备部件出现了问题。为此,华为网管产品N2000应运而生,能提供集中的性能监控和告警管理,统一的拓扑管理,一致的配置和维护手段等功能。
软交换真方便啊,让运营商与整个业界初次尝到了“拆分”的甜头——分布式架构摆脱了传统集中式部署的束缚,设备想放哪里就放哪里;分层架构让网元功能各司其职、分工明确;统一管控让操作维护更简单;运营商还能从多厂家采购设备,提升了议价权。
于是,接下来随着移动业务飞速发展,行业进入固移融合时代,软交换架构被移植到了移动网络中,SoftX3000被进一步拆解为面向移动网络的MsoftX3000和面向固定网络的SoftX3000,实现了一个核心网网络为固话和手机同时提供服务。
这又是一次“融合”与“拆分”相结合的演进。一方面,“拆分”停不下来,比如计费模块和数据库被进一步拆分出来;另一方面,“融合”不断,固网和移动融合,CS电路交换与PS分组交换进一步融合。
但这样不断的“融合”和“拆分”,让运维工作更难了,核心网的网元越来越多,来自不同厂商的设备越来越多,业务类型越来越多,涉及的专业也越来越多,运维变得更加复杂,比如,要适配多个版本和网元类型,要是适配包稳定度不高,需频繁地跑到不同的地方打补丁,批量打补丁,使得维护工作量更大。同时,核心网网管中心也变成了一个庞大的组织,要对每个运维人员的权限进行分权分域,让不同的人做不同的操作,管理不同的设备。
尽管运维越来越复杂,但“拆分”仍然停不下来。从固网到3G时代,电信网络设备都是厂家专门定制的专用设备,软硬件垂直一体化,设备功能单一,运营商觉得专用硬件太贵了,而且惯性的认为软件一定比硬件便宜,于是,借鉴了IT行业的经验,在4G时代提出了NFV(网络功能虚拟化)。
NFV将传统专用电信设备软硬件解耦,并将网络功能软件运行于通用硬件之上,这样不同的网元功能软件可灵活部署于统一的通用硬件之上,从而可利用通用硬件的规模效应来降低硬件成本,提升网络的弹性。
这给网络建设和运维工作又带来了新变化。NFV架构由硬件资源层、虚拟化层、VNF(虚拟化网络功能)层以及MANO(管理与编排)等组成,层域更多,组件更多,故障监控和定界更复杂;VM之间有各种各样不同的网络要互通,网络配置也很复杂。过去专用设备时代,部署流程是先安装设备,再连接,调通,接下来再安装管理系统;但NFV后,得先安装管理面MANO,再申请和批量创建VM,再安装网络功能软件。以前是先安装设备再安装管理系统,现在是先安装管理系统再安装网络功能,运维往前提到建设阶段。
针对这些新变化,华为又推出了U2020和NFVO产品,可实现跨层监控和故障定界,支持VNF部署和弹性、自愈,以及DCN自动化,从而简化了网络配置和维护工作,并能通过资源自动编排实现最少的硬件资源部署最多的VM。
综上,从窄带交换、NGN到2G、3G、4G时代,核心网的发展历程就是一场“拆分”与“融合”史,随着不断拆拆合合,网络运维方式也代代发生变化。那如今5G时代的核心网运维又将发生怎样的变化?
今生篇:我到哪里去?
尽管4G NFV打破了传统电信设备软硬件垂直一体化的烟囱式架构,实现了软件与硬件分离,但这并不彻底,解耦出的软件依然是“大块头”的单体式软件,整个架构的开放性依然不够,一如从“硬烟囱”变成了“软烟囱”,而且硬件能力还受到了损失,整个系统的敏捷性和高效性并没有得到充分提升。
互联网玩家们的新业务发布,从idea到落地,可能只需要3到6个月,而NFV解耦后的电信软件包依然庞大复杂,估计从开发到发布依然需要一年甚至几年时间,这怎么和互联网巨头竞争?又如何快速响应5G多样化业务需求?
只能进一步“拆分”。大块头的电信软件被微服务化,进一步分解为相互独立的小软件模块,并采用容器化部署,从而大幅提升软件开发的高效性和敏捷性。这就是众所周知的“5G核心网基于云原生设计”。
除了基于云原生设计,5G时代的核心网还首次原生支持控制面和用户面彻底分离,使得用户面UPF可灵活下沉,与边缘计算(MEC)一起分布式部署于更靠近用户和数据源的位置,组成广泛分布的边缘节点,从而可降低网络时延,提升业务体验,使能5G时代海量低时延高可靠型行业应用。
云原生设计让业务上线更加敏捷,可提升运营商与互联网巨头之间的竞争力,而分布式边缘节点为5G网络广泛注入了算力,可以让运营商提供的业务更丰富,体验更优,这真是个不错的主意。
但每个硬币都有正反两面,这些变化也给核心网运维带来了空前的挑战。
在云化架构下,涉及的厂家、软硬件模块、接口众多,从系统集成、参数配置到联调、测试,从统一故障信息收集、故障定界定位到多厂家配合处理故障等,复杂度都将大幅提升。且随着网络规模不断扩大,故障点相比传统网络提升N倍,故障也容易迅速扩散。同时,微服务、网络切片等技术引入使得核心网网络管理对象大增,变更操作更加频繁,而运营商每年平均有数百次到数千次变更操作, 70%网络事故都是变更过程中人为操作失误引起的,这让运维压力越来越大。
基于云原生设计的5G核心网将通过网络切片技术为不同行业的应用需求提供确定性、定制化的网络服务能力,这要求行业用户在申请租用网络切片时,运营商能快速为之端到端开通,并能在开通和业务上线后保障网络SLA,整个过程靠传统人工运维方式简直是impossible mission。
未来的边缘节点可能有成千上万,甚至几十万个广泛分布于网络中的各个位置,若采用传统上站维护的方式,维护难度和工作量也将大幅增加,需要统一、云边协同的高效运维。
从另一个角度讲,具备云化和切片能力的5G核心网,不仅承担着网络全局资源调度和管理的任务,还是5G时代的业务使能平台,这意味着核心网运维将与业务提供能力紧紧的捆绑在一起,以前网络能不能提供业务,业务体验好不好,基本与运维无关,但现在核心网运维将从以网络为中心转向以业务为中心,是5G业务的“医生”,也是“救生员”,这也对5G核心网运维工作提出了全新的要求。
简而言之,5G时代的核心网运维的复杂度和工作量将呈几何级数上升,已到“人力有时尽”,依靠传统被动式“人肉运维”已无法持续,必须引入AI,走向智能化、自动化,这也就是业界提出的“驶向自动驾驶的网络时代”。
为此,华为推出了业界首个管控融合、云边协同、分层自治的5G核心网自动驾驶网络智能运维解决方案iMaster MAE-CN。
管控融合
针对网络内多个管理系统孤立分散,数据隔离,以及传统管理面与业务面分离等问题,iMaster MAE-CN基于微服务架构,将EMS、VNFM、NFVO,NSSMF,MEPM和MEAO等拉通融合,并可通过智能调度引擎使得网络可以根据运营商的商业意图或注入策略,动态、灵活地调整网络业务、配置参数和虚拟资源等,可实现从网络设计,部署,到运维、优化的端到端的管理。
云边协同
核心网管控单元和中心/边缘网元自治单元分层运行、协同工作,基于策略的生成、优化、执行,共同实现了全局的端到端闭环控制。
分层自治
在核心网管控单元构建网络AI引擎(Network AI),在最上层的网络层级进行用户意图洞察、全局性策略模型的集中训练及推理、网络闭环控制等,从而实现低实时性的网络级闭环自治。同时,在核心网中心/边缘网元自治单元构建网元AI推理单元(Site AI),基于Network AI下发的既定模型/策略,以及实时分析采集到的网络数据,实现高实时性的网元级闭环自治。
与汽车领域的自动驾驶一样,核心网自动驾驶也分为多个等级,华为将基于iMaster MAE-CN解决方案的智能化、自动化能力不断增强,逐步从“部分自治网络”发展到“条件自治网络”,再到“高度自治网络”,最终迈进“端到端完全自治的网络”,推动核心网运维实现三大转型。
转型一:极简部署替代手工部署,实现网络部署0干预
当前我们的网络工作大部分都是人工来完成,虽然在一些工作环节中也引入了自动化工具,但这些工具其实都是“半自动化”的,或者未能实现完全闭环的,仍需工程师参与。以后自动驾驶网络将逐步取代传统低效、重复性的人工操作(比如配置下发,拨测,变更,升级等),并将工程师从繁琐的流程中解放出来,实现“在流程之上”管理和设计流程(比如规则、策略、工序等)。以华为核心网iMaster MAE-CN为例,其不仅支持网络设计、网络部署、网络测试、网络升级过程的全流程自动化,还支持自动化VNF资源规划、分配、部署和升级。
转型二:人工智能替代专家经验,实现网络业务0中断
今天,当网络问题发生后,通常先通过客户投诉驱动,再由专家通过OSS、网管或辅助工具进行人工分析、决策和操作,整个运维过程是被动式的,效率很低,难以满足未来业务多样化、敏捷化需求。后续自动驾驶网络将改变传统依赖专家经验的运维模式,由AI替代人工解决电信领域大量重复性的、复杂性的计算工作,大幅提升运维效率;将基于海量的数据分析来提升网络预防和预测能力,实现从被动等待客户投诉的天级的被动运维转变为主动识别、发现、解决问题的分钟级的主动运维;将充分发挥数据驱动和AI能力优势,实现辅助决策甚至自主决策,增强系统应对复杂及不确定性问题的能力,大幅提升网络业务的响应速度。
转型三:自动发放替代线下开通,实现业务开通0等待
5G时代运营商将根据不同行业的不同业务需求提供按需定制的网络切片服务,这要求行业租户一旦订购切片,运营商能快速为之部署和开通切片服务,以满足行业客户快速响应市场的需求,并能在切片开通后实时保障切片性能。比如,华为核心网自动驾驶网络方案对接运营商的业务发放流程,提供切片模板化设计编排,支持自动化部署以及自动化SLA监控与保障。具体而言,华为基于全球的网络运维案例,构建切片体验与网络KPI的映射关系模型,可在线评估和秒级响应切片资源分配需求,自动生成网络配置,一键完成切片实例化、网络连接、配置和调测验收;同时,可基于用户级/会话级体验进行智能监控,准确识别切片SLA劣化点和劣化根因,实现切片SLA的可视,可管、可控。
是的,0干预,0中断,0等待,这就是未来自动驾驶网络的终极目标,也是电信业的诗和远方。
“未来的网络运营中心只有一个人和一条狗。”记得在一次行业论坛上一位专家这样开玩笑说,“这个人的工作是负责喂狗,而这条狗的任务是看管网管系统,以确保不被人为操作。”