又一云厂商因光缆被切出故障 AWS中国近12小时大面积瘫痪

从凌晨2点到下午1点48分,亚马逊旗下云服务商AWS中国区熬过了漫长的11小时48分。

作为AWS中国区的员工,方远(化名)一早被电话吵醒。一家创业公司的客户过来抱怨自家APP连不上服务器了。

事情比方远想象的严重。挂完电话,方远才发现公司的大小微信群已经炸了锅。

按照AWS中国的官方声明,因为隔夜道路施工中有几处光缆被切断,导致可用区无法链接Internet,使得AWS中国业务大规模出现故障。

包括方远在内的员工们也很懵,几处光缆被切断怎么会影响整个北京区域的这么多服务?

但这一事故的影响已经在不断发酵,包括VIPKID、流利说、三星应用商店等多个用户都均受到不同程度的影响。亚马逊中国官网(www.amazon.cn)的页面也一度崩溃。

因为正逢6·18大促,流利说的助教张丰(化名)正忙着推广自家的促销信息。这边张丰刚向学员介绍完自家的课程计划,就在微信上被学员告知流利说APP的定制课程已经根本打不开。很快,张丰接到公司紧急通知,是因为公司的云计算服务商AWS出现故障。

接下来,张丰的工作重点不得不变成安抚各路学员。直到下午1点多,张丰终于开始群发消息,通知学员们APP“服务”已经逐步恢复中。

类似的尴尬在VIPKID的各个家长群同时上演。

有客户在微信上评论道:“这是我从业以来经历最长的一次故障修复时间,AWS这次事故处理的时间效率太低了,我表示很失望。”

为了保障服务不中断、数据不丢失,一般业务系统、数据都有多个备份。而在云计算中,为了保障数据中心内业务系统的可用性,数据中心基础设施也会采取类似的冗余备份,提高系统可用性。

有业内人士认为,此次AWS光缆被切断导致近12小时大面积服务瘫痪是因为没有做好网络冗余设计。

网络冗余设计主要通过重复设置网络链路和网络设备冗余措施。网络链路冗余是指为确保业务正常运转,除配置主线路外,同时做好第二种、第三种线路的部署。

主备线路隔的位置比较远,因此,一旦主线路出现故障,还有其他线路保证网络的可用性。例如,接入互联网时,同时采用不同电信运营商线路,相互备份且互不影响,但这样一来,成本也会增大。

据悉,AWS北京区域使用的是光环新网的数据中心,记者多次致电光环新网客服电话,均无法接通。据光环新网官网显示,该公司在北京拥有酒仙桥、太和桥、光环新谷、东直门、房山和亦庄6个数据中心,每个都拥有高达100G的BGP总出口带宽,多运营商通信链路。

“本来一个机房,各家运营商链路应该有自己的连通方式。但是也有可能机房在施工时先汇总各家运营商到一条主干线,到某一节点之后再分开。但冗余是有成本的,不是所有场景所有环节都冗余的。对于云厂商来说,网络线路都是租运营商的,都是钱啊。”上述业内人士指出。

因为光缆被切断导致服务瘫痪的并不少见。2015年,因为当地市政建设施工方挖断了光缆,支付宝PC网页和手机客户端都出现无法登录、网络异常等现象。后来,支付宝改成了冗余设计。

2018年9月云栖大会上,蚂蚁金服发布了“三地五中心金融级高可用方案”,并现场演示了“剪网线”,经过26秒容灾切换完成,恢复业务。

而在2018年7月,因腾讯云广州一区的主备两条运营商网络链路同时中断,腾讯云广州区域部分用户出现资源访问失败、控制台登录异常等情况。

2019 年3 月,腾讯旗下多项服务出现服务器未响应问题。随后,腾讯云发布公告称,因上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。

由于有备用链路,腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部T级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。此次光纤故障从发现到恢复只有两分钟,并且所有流程自动化执行,在150秒之内就快速恢复了网络。

不过,即使有冗余备份,对于业务也并非毫无影响,“备用链路一般会慢一些,而且大家都拥到小路上,自然就挤了,体验上就是慢。”一云服务商告诉记者。

此前,UCloud创始人兼CEO季昕华表示“云计算公司有四大谎言,分别是云计算先服务于内部客户,再服务于外部客户;云计算能保证100%的安全;云计算消耗大量资金;云计算是不盈利的。”

“云计算虽然比本地研发更安全,但不可能是100%。就算微软、亚马逊、谷歌、阿里、腾讯一样都会出问题。所以用户更愿意使用多家云来服务,多云战略是未来的重要方向。”他指出。

也有厂商呼吁,随着云计算和数据中心越来越重要,光缆、管道等基础设施的保护也需要跟上,现在破坏的成本太低了。

文章来源网络,作者:管理,如若转载,请注明出处:https://shuyeidc.com/wp/132645.html<

(0)
管理的头像管理
上一篇2025-02-27 02:59
下一篇 2025-02-27 03:00

相关推荐

  • 骨干网络体系结构能干什么?骨干网络体系结构的作用

    骨干网络体系结构是现代信息社会的“超级高速公路网”,它通过分层设计、冗余备份和智能调度,确保海量数据在全球范围内高速、稳定、安全地传输,是支撑云计算、物联网及人工智能应用的底层基石,想象一下,如果你把互联网比作一个巨大的城市交通系统,那么骨干网络就是连接各个城市的主干道和立交桥,没有它,你的每一次微信发送、每一……

    2026-06-18
    0
  • 高io数据库可以干什么用?高io数据库适合什么场景

    高IO数据库的核心价值在于通过极高的读写吞吐量,解决海量数据场景下的性能瓶颈,是支撑高并发交易、实时分析及大规模内容分发的关键基础设施,在数字化转型的深水区,数据不再仅仅是静态的记录,而是流动的资产,传统的机械硬盘或普通SSD早已无法满足现代应用对速度的极致追求,高IO(Input/Output)数据库,就是那……

    2026-06-18
    0
  • 高io服务器性能如何?高io服务器适合什么场景

    高IO服务器并非单纯指代某种硬件,而是指在随机读写、高并发连接及小文件处理场景下,具备极致IOPS(每秒输入输出操作次数)和低延迟特性的计算资源,它是支撑现代高并发应用稳定运行的核心基石,在2026年的数字化浪潮中,业务负载早已从简单的静态页面展示演变为复杂的实时数据处理,许多开发者在排查系统瓶颈时,往往忽略了……

    2026-06-18
    0
  • 隔离网络空间哪里便宜?国内隔离网络空间价格

    隔离网络空间并没有统一的“便宜”标准,其成本高度取决于物理隔离等级、带宽需求及安全合规要求,通常物理网闸方案初期投入较高但长期运维成本低,而逻辑隔离方案虽初期便宜但存在潜在安全风险,建议根据业务敏感度选择混合隔离架构以平衡成本与安全,在数字化时代,企业构建独立网络环境的需求日益增长,但“隔离网络空间哪里便宜”这……

    2026-06-18
    0
  • 骨干网络体系结构设备为何故障?常见原因有哪些

    骨干网络体系结构设备故障的核心原因通常归结为硬件老化、配置错误、物理链路中断及外部攻击四大类,其中电源模块失效与光模块性能衰减是占比最高的隐性故障源,骨干网作为数字经济的“大动脉”,其稳定性直接关乎国计民生,当核心路由器或交换机出现丢包、震荡甚至宕机时,运维人员往往面临巨大的压力,很多人第一反应是检查软件配置……

    2026-06-18
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注