2020 年,对于一些欧洲运营商来说简直是噩梦不断。

 

断网,断网,大规模断网频发 

2020 年 11 月 23 日下午 1 点 50 分开始,Vodafone 在德国的网络发生大面积断网,导致超过 10 万用户持续 3 个小时无法接入移动网络。德国媒体报道,大量 Vodafone 用户的手机显示无法注册网络,只能用来拍照。

 

 

对于此次重大网络事故,德国 Vodafone 给出的原因是:位于慕尼黑,法兰克福和柏林的“中央控制单元发生故障”。看来是核心网故障导致。

 

2020 年 5 月 28 日下午 2 点开始,捷克全国范围内的几乎所有 Vodafone 网络服务都发生中断,移动电话反复显示数据服务关闭,无法拨打电话,持续时间达 4 个小时,影响用户规模达 100 万人。

 

 

事故发生后,Vodafone 捷克 CEO 公开向所有用户道歉,官方公布事故原因为“核心网出现了一个意想不到的硬件错误,这导致网络控制单元超载”。

 

噩梦还在继续。当地时间 2020 年 8 月 28 日上午 9 点 20 分开始,“由于核心网的某些设备故障”,英国 Vodafone 发生重大网络故障,导致超过 10 万用户在 3 个小时内无法上网和通话。

 

此次故障投诉热点分布图

 

2020 年 3 月 17 日,正值疫情爆发,在“整个国家最需要连接的时候”,英国运营商又一次遭遇重大网络事故,估计是因为网络拥塞原因,“不同运营商网络之间的一些呼叫无法连接”,导致 6000 多万移动用户在超过 12 个小时内无法正常通信。

 

 

增强网络可靠性迫在眉睫 

记得早在 2018 年,英国运营商 O2 因“核心网网元 SGSN–MME 软件问题”导致大规模断网之后,有行业人士分析道,在 5G 正式商用之前把问题暴露出来未必是坏事,这样才能及时纠正,总比以后 5G 时代出现问题再来补救好。然而,如今全球 5G 已经商用,重大网络事故仍在接连不断发生。随着 5G 脚步越来越快,这不禁让人感到增强网络可靠性的警钟声正敲得越来越响,越来越急促。

 

众所周知,与过去任何一个 G 不同,过去的 G 主要负责连接人,而 5G 将走进工业、能源、金融、汽车、医疗等众多涉及国计民生的领域,赋能千行百业数字化转型,实现万物智联的世界。不难想象,进入 5G 时代,一旦网络出现大规模断网,轻则造成经济损失,重则危及生命安全,甚至影响社会正常运转。同时,随着 5G 物联规模不断扩大,一旦出现网络重大故障,影响范围更大。

 

反观以上频频发生的重大故障,故障原因几乎都发生在网络最关键的位置——核心网。作为移动通信网络的大脑,5G 时代的核心网不仅承担着调度和管理网络全局资源的重任,更是行业数字化的使能平台,如果类似事故发生在已实现大规模连接的 5G 网络,后果简直不敢想象。恐怕那个时候就不是公开道歉那么简单了,各行各业的经济损失谁来赔偿?

 

增强网络可靠性已到了迫在眉睫的地步。那追根溯源,引发这些重大安全事故的根因是什么?如何阻止事故频发?而在如今地缘政治风暴愈演愈烈的背景下,少数政客们口中的所谓“网络安全”以及鼓吹的“清洁网络”又能阻止这些重大网络事故频频发生吗?

 

政治解决不了宕机问题

2020 年 7 月,欧洲网络与信息安全局(ENISA)发布“2019 年电信服务安全事故报告”(Telecom Services Security Incidents 2019 Annual Analysis)。

 

 

报告显示,2014 年到 2019 年期间,欧盟 26 个成员国报告的网络事故数量稳定在每年 150 至 170 之间。其中,2019 年度共发生 153 起网络事故,损失的总用户小时数(每起事故中的用户数*小时数)约为 9.88 亿小时。相比 2018 年,损失的总用户小时数有抬头趋势。

 

 

从事故根因分布看,系统故障影响最大,约占用户总损失小时数的一半(4.79 亿个用户小时);系统故障也是安全事故频发的根因,占事故总数的 56%。其次是人员误操作,自然灾害和恶意攻击行为,分别占据事故总数的 27%,13%和 5%。

 

 

报告进一步分析指出,导致系统故障的主要原因是硬件故障和软件错误,约占 60%;其余为断电、过载、线缆中断等原因。同时,相比早些年固网影响而言,网络故障对移动网络的影响比重日益增大。

 

这份报告的分析结果与今年在欧洲频发的重大网络事故现象是一致的。2020 年 5 月捷克 Vodafone 的“核心网硬件错误”属于系统故障中的硬件故障;而德国 Vodafone 的“中央控制单元发生故障”,从用户描述的“手机显示无法注册到网络”现象来看,极有可能是 HLR/HSS 出现软件或硬件故障而停止服务,不接受 TAU/LAU 和鉴权。

 

从这份报告可以明显看出,由于电信行业的安全标准更高更完善,系统故障和人员误操作才是主要的安全风险,而恶意操作行为占比极低。

 

但不幸的是,少数政客却本末倒置,夸大了“恶意操作行为”,忽视了内部系统故障这个最大的安全隐患。

 

既然内部系统故障是网络最大的安全隐患,那运营商该如何防范?

 

前几天,看到一家欧洲研究公司列出了“5G 时代运营商的梦想与现实”,其中第一条就指出,5G 时代运营商的梦想是“有越来越多的供应商可供选择”,但残酷的现实却是“仅有 2-3 家供应商可供选择”。看到那张 PPT,真是让人笑中带泪。

 

没错,运营商当然很清楚,坚持供应商多元化策略才是提升网络质量和稳定性的长久措施。这样一来,不仅可以减少对单一供应商的过度依赖,避免把鸡蛋都放进一个篮子里,可分散风险,提高网络的韧性,还能加大多供应商之间的竞争,促使供应商提升自己的产品能力和安全防护能力。

 

然而,在当前国际政治环境下,少数政客却试图简单粗暴地用排除中国设备商的手段来获得所谓的网络安全,使得一些运营商可选择的供应商太少,与网络安全之路背道而驰。

 

简而言之,通过采用供应商多元化策略,加大市场竞争,来不断促使供应商提升硬件和软件系统的可靠性和稳定性,乃至通过引入 AI 等新技术避免人工操作失误,才是保障未来网络安全的阳光正道。政治手段不仅解决不了宕机问题,还给一些国家的运营商网络的稳定性和可靠性蒙上了一层厚厚的阴影。