割接误操作!广西80万移动用户网络瘫痪!一起来还原下让各方冷汗直冒的一幕~~~
上周五,广西南宁很多中国移动用户突然惊恐得发现自己的手机无法拨打接听电话、无法使用流量,80万用户都变成了“孤魂野鬼”!损失小的说自己的外卖因为联系不到本人,自己外卖钱被吞了,损失大的说自己的通讯录里面涉及到行业龙头老大,ZF的官员,突然联系不上使自己失去了价值上亿的朋友!本次故障,共收到10086投诉20727起。属于集团重大故障。对此,中国移动的解释是正在进行网络升级。
从8日到10日下午,依然有不少用户反应手机还是没信号。官方也未放出相关恢复or最新进展公告。据云头条报道,是8号当天上午5:00,广西南宁HSS09(华为)扩容割接完成后,人为误操作导致用户数据丢失。华为督导实施人员出现的误操作为:将NNHSS09BE01/NNHSS09BE02互为灾备的各1对DSU单板格式化(该HSS共8对DUS单板),导致HHS中存储用户数据被删除,从而导致钦州、北海、防城港、桂林、贺州、梧州约80万用户2/3/4G所有业务的无法使用。
有公众号做了事件还原科普:
9月7日晚,后半夜,厂家人员进行扩容割接(就是增加系统的容量,属于经常会有的工作,行内俗称“有操作”)。割接的时候,工程师不小心把HSS设备里面的用户数据给格式化删除了。等凌晨五点的时候,才发现了不对劲,所有人内心都是崩溃的。
用户数据没了,就说明你这个用户在系统里面就不存在了。当然,你就打不了电话了,所以很多用户反馈“打电话时说是空号”。移动赶紧做了两件事: 第一件事,是临时给这80万用户创建用户数据(相当于紧急开个户),同时,因为鉴权数据是不能造假的,所以瞎编了一个鉴权数据,然后把整个系统的鉴权功能给关闭了。
鉴权数据就是说你手机里面有个密码,移动那边系统里也有个密码,两边密码对得上,你才是真身。 现在移动把密码弄丢了,它没办法鉴别你是不是真的,没办法,它干脆就临时关掉了鉴权功能。实际上,这个时候,如果你是假用户,你也能接入移动的系统,打电话和上网。这个风险是很大的,但移动这时候已经管不了那么多了,总不能不让真用户打电话吧?万一误了事,责任更大。
第二件事就是移动完成临时开户之后,需要发起一下强制注册(相当于移动大吼一声——“6分钟后,快来找我”),所有用户的手机赶紧就去找它(注册到网络里)了。为什么是6分钟,不是6秒钟? 因为这个是强制注册周期时间,6分钟为一个周期,每6分钟就要找一次网络。如果6秒钟的话,全省1000万用户手机,负荷太大,系统会崩溃。
临时恢复业务之后,移动赶紧去BOSS那边拿真正的用户数据去了。这个BOSS,不是老板的意思,是业务运营支撑系统(BOSS,Business & Operation Support System),所有的号码信息都在里面,移动拿到真正的用户数据,赶紧写到系统里。等写完之后,数据就算是真正恢复了。这个时候,移动又重新开启了鉴权功能。 一切就都彻底恢复了原样。。。
话说回来,在9月5日举办的华为全联接大会上,华为的副董事长轮值CEO郭平发表了一篇《云领未来,使能智能社会》的演讲,强调华为云不做数据变现,尤其是在网络安全方面。同时还会透露将会把5%研发费用用于网络安全建设。然而仅仅是三天之后,就发生该起数据丢失时间,对于这一严重影响群众日常的重大事故,有知情人士透露华为可能会被有关部门处罚超过八位数的罚金。
就这次事件来说,有的人说,常在河边走,哪能不湿鞋?但是有员工吐槽说这是公司政策导致的必然结果,华为这些年也是很多都靠第三方干活,虽然管理还行,但是第三方人员流动很大,技术水平难以有保障。自有人员压力超大,协维和客户他们解决不了的需要求助,省里还有任务,24小时电话不断。每天晚上凌晨要做后方保障,支援多个地方高危操作和割接。
古语有云:摸网校尉,进机房前,必先沐浴更衣,再点三柱香,拜各厂商。入内,必在东南角点亮一无线路由,若断电或信号丢失,则放弃所变更配置,原样撤出机房,如若不从,必有断网及大故障发生。谓之:信号灭,不割接!