Rogers通信大故障:路由器升级导致BGP中断?


当地时间7月8日凌晨,加拿大运营商Rogers发生重大网络故障,导致全网无线、有线互联网服务中断。直到7月9日下午,Rogers才宣布网络和系统已接近全面恢复。

路由器升级导致BGP中断?


“我们在对核心网络进行维护升级后,一些路由器在周五早上出现了故障,并且该故障引发流量过载,导致整个系统关闭和网络无法运行。”

7月9日,Rogers首席执行官Tony Staffieri在道歉信中表示:“问题发生后,我们的技术人员一直通过更换问题软件、设备以及更改网络配置来努力恢复网络。”


网络中断后到处蹭网的Rogers用户


事故发生后,Cloudflare公司的全球互联网流量监控显示,从UTC时间7月8日08:45 左右开始,来自Rogers AS的互联网流量几乎完全丢失。

数据显示,从08:15到21:45间,Rogers AS多次通过BGP Update消息公布可用路由和撤销路由,直到7月9日01:00之后,Rogers的互联网流量才开始逐渐恢复。

Rogers在17个小时内频繁BGP通告和撤销,意味着其内部核心网络故障一直未能解决。

综合以上信息推断,此次事故原因可能为:

Rogers在对骨干网路由设备进行升级时,负责执行BGP协议的路由器出现了故障,导致Rogers运营的所有网络与互联网失联。

网友调侃:Rogers正在努力修复故障

为何故障这么严重?


互联网Internet,实际上是“interconnected network”的缩写,它由不同的网络互联而成。这些组成Internet的“网络”称为AS(自治系统),准确的定义为具有统一路由策略的巨型网络或网络群组。

每一家提供互联网接入服务的ISP运营商都拥有自己的AS和ASN(AS编号),比如中国电信、中国联通等运营商都有自己的ASN。我们的手机、计算机等终端设备要连接到Internet,都需首先连接一个AS。

BGP,Border Gateway Protocol(边界网关协议),指用于不同AS之间实现互联的协议,是目前Internet骨干网上常用的核心路由协议,其最主要功能在于控制路由传播和选择最好的路由。


通过BGP协议,AS之间会不断相互“交谈”,以确定数据在全球互联网上的最佳路由。

然而,当Rogers的骨干路由器在升级时出现故障后,相当于其AS采用BGP协议告诉全球互联网:“您好,我们不存在了,请绕着我走,不要跟我说话!!!”

然后,所有互联网流量都无法进出Rogers拥有的任何网络。也就是说,所有Rogers网络下的终端设备与互联网隔离了。

同样不幸的是,BGP协议和AS互联相当复杂,BGP管理的路由信息非常庞大且来源复杂,路由更新和传播慢,如果出了大问题,恢复起来往往需要数小时甚至数天。而Rogers在Internet上只注册了一个AS。即使有两个AS,尝试转移到另一个AS也可能需要很长时间,并且可能会导致其他问题。


网友调侃:手机变砖头

一些疑问?

为提供连续、稳定的互联网连接服务,按理说,如此重要的网络节点都会采用冗余备份架构,如此重要的网络升级也一定有周全的回退方案。

但Tony Staffieri在致歉信中表示“我们断开了特定设备的连接,并重定向了流量,这使得我们网络和服务随着时间推移而逐渐恢复”。

这让人感觉此次故障并没有回退或切换到备用的可能性,以致于他们宁可断开设备,让全网终端无法接入互联网。

此次升级应该也没有类似A/B测试的先小范围测试验证、再整体升级的机制,否则,不至于造成全网范围大故障。

此次事故也引发了行业人士热烈讨论。

一位加拿大网友留言道:

AS的外围和网络内部都有路由器,当发生链路增加、减少、拥塞等情况时,它们会相互告知,并决定替代路径。如果你对你自己的AS知之甚少,可能会将BGP错误配置为发送本不该发送的更新,停止侦听本该获取的更新,或者接受本不应该接受的数据包,等等。这需要通过配置ACL(访问控制列表)、地址前缀列表等来防止错误信息在网络传播。Rogers可能没有做好配置和控制好更新。

之所以会出现这样的问题,据我所知可能是因糟糕的架构设计、维护经验不足、运维费用低、以及没有完善的流程与机制等原因造成。

也有网友评论:

可能是对来自单一供应商的设备打补丁时,导致主设备和备份设备都出现了问题。为什么Rogers不采用两家或多家供应商设备呢?这样不仅不用担心主备都挂了,而且还能通过加大竞争提升产品和服务质量。

“以后我们将增加网络和系统冗余,继续对网络进行重大投资,加强技术系统和测试,以提升网络稳定性。”对于这些疑问,或许从Tony Staffieri的致歉信中能找出些答案。

网优雇佣军投稿邮箱:wywd11@126.com
长按二维码关注
通信路上,一起走!

本篇文章给大家谈谈路由器网页认证密码是什么意思,以及华为路由器需要登录认证是什么意思对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。宽带密码、路由器登录密码都是什么意思?(1)宽带帐号密码是在办理宽带业务时由中国电信分配的,上网时前需要使用宽带账号和密码进行拨号认证;(2)Wi..

母亲低贱,子女世代低贱,古代朝鲜残酷的“从母法”是怎么回事?朝鲜阶级制度、嫡庶关系非常的严重,和朝鲜比起来,中国的庶子们已经非常幸福了!朝鲜有三个阶级分别是:1...

每经记者:胥帅 每经编辑:张海妮今日(3月25日),“飞常准”显示,四川航空3U3839航班状态变更为“正在返航”。据悉,该航班今日7时43分从重庆江北国际机场起飞,原..

航空圈讯 1月16日 ,中华航空(China Airlines)一架从台湾桃园机场飞往美国安克雷奇的波音747货机,起飞不久一个发动机出故障,紧急返航。由于该货机油量..

7月28日,卢森堡货运航空(Cargolux)旗下一架波音747-400货机在我国郑州新郑国际机场(CGO)起飞不久便发生火灾警报,货机起飞1个小时后便降落在返回起飞的机场。下午4点5..

航空圈讯 1月16日 ,中华航空(China Airlines)一架从台湾桃园机场飞往美国安克雷奇的波音747货机,起飞不久一个发动机出故障,紧急返航。由于该货机油量..

来源:人民日报客户端3月25日下午,“3·21”东航飞行事故国家应急处置指挥部在广西梧州举行第五场新闻发布会。东航集团宣传部部长刘晓东在发布会上回应记者提问时称,东航..

来源:新华社记者从四川航空获悉,25日由重庆至莫斯科的3U3839货运航班,起飞后出现机械故障返航,现已安全降落。川航3U3839航班于25日7时43分从重庆江北国际机场起飞,原计..

大家好,今天来给大家分享路由器默认用户名密码是什么意思的相关知识,通过是也会对路由器用户名和密码是相关问题来为大家分享,如果能碰巧解决你现在面临的问题的话,希望大家别忘了关注下本站哈,接下来我们现在开始吧!路由器默认用户名和密码大部分无线路由器的初始用户名和初始登录密码为admin,a..

2023年1月6日,华夏航空G54985重庆-延安航班,08:19重庆起飞后出现通讯故障,机组按照QRH(机组快速检查单,即故障处置标准程序)正常处置,因重庆大雾天气不满足落地标准..

为坚决落实党中央、国务院关于“外防输入、内防反弹”总策略和“动态清零”总方针,支撑高效统筹疫情防控和经济社会发展,方便广大用户出行,即日起取消通信行程卡“星号”..

为坚决落实党中央、国务院关于“外防输入、内防反弹”总策略和“动态清零”总方针,支撑高效统筹疫情防控和经济社会发展,方便广大用户出行,即日起取消通信行程卡“星号”..

我党第一座无线电台遗址图源:IT时报这里,研制出我党第一台收发报机,建立第一座秘密电台。这里,创办我党第一所无线电培训班,编写出第一本密码。上海是红色通信的起源之..

本文由 网优雇佣军 来源发布

Rogers通信大故障:路由器升级导致BGP中断?

评论问答