亚马逊EC2中断 “可用区”遭质疑

【2011年4月25日外电头条】对于愿意多付一点钱的云客户,亚马逊提供了一项很有诱惑力的提议:将应用分布到多个可用区(availability zone)上,可获得一项几近保证的服务:不会遭受宕机之苦。

“在分开的可用区上运行实例,可放置你的应用程序在单个位置上出现故障。”亚马逊在推广其弹性计算云服务(Elastic Computer Cloud)时如此说道。

只在一个可用区上创建应用的客户更容易遭受服务中断的故障。但是,多个可用区同时停止运行时将会怎样?我们已经看到了结果:一次服务中断令多家网站无法访问,其中包括 Foursquare、Reddit、Quora 和 Hootsuite。

“我们可以确定,在美国东1地区的多个可用区中,连接故障影响了 EC2 例程,并且不断增加的时延影响了 EBS(弹性块存储)容量。”周四亚马逊在其服务状态控制板上指出。

美国东1地区,位于北弗吉尼亚州,是世界各地的多个亚马逊服务地区之一。在北加利福尼亚州还有一个服务地区。在东部时间凌晨 4:41 时,亚马逊开始报告故障。到下午 1:26 时,亚马逊称他们“现在看到故障和时延在显著地下降”,但是问题仍没有消失。亚马逊认为是一起“网络故障”引发大量的存储区进行再次映射,从而造成了容量短缺。

根据加特纳公司(Gartner)分析师德鲁•里维斯(Drue Reeves),虽然每个地区包含多个可用区,但对于每个可用区,已知的信息很少。在弗吉尼亚地区有四个可用区,里维斯说道。但是,这些可用区是否位于不同的数据中心?它们之间相距多远?数据如何跨区复制?里维斯称,对于这些问题,亚马逊没有保持透明性。不知答案让顾客的选择变得困难:创建高可用的应用时,使用哪种方式最为有效。

“多年来,亚马逊一直称为了避免整个地区发生服务中断,他们在一个地区中运行了多个可用区。”里维斯说:“但我们现在还是发生了故障,而且是整个地区的 EC2 出现中断。”

亚马逊发言人尚未对评论请求作出回应。

也许显而易见,亚马逊多等级承诺为每个地区提供了 99.95% 的可用性,但并不是对于每一个可用区。对于许多客户,这已足够优秀,但还远未达到 5 个 9 的高可用性标准。

在 EC2 网站的可用区描述中,亚马逊称,这些可用区位于“不同的位置,其设计将其与其他可用区故障分离开来,并且可提供廉价的低延迟网络连接至同一地区中的其他可用区”。

这些都引发了一个疑问:能否创建跨地区的应用,如果需要,可从弗吉尼亚州向加利福尼亚州进行故障转移?

云软件提供商 Enomalv 公司的创始人兼 CTO 鲁文•科恩(Reuven Cohen)想得更远。客户创建的应用应同时运行在多个来自不同销售商的云平台上,他如此说。

已知的运行在多个可用区上的大型网站发生中断,这一事实表明这些可用区并非万无一失。

“事情最会出现问题。这是互联网自身具有的本质。”科恩如此说:“因为你是亚马逊,你就可以提供 100% 的正常运行。这种想法是错误的。”

“销售商可能提供了冗余性……但这并不能解决这一问题:如果该销售商的所有方式都出现中断将会怎样?”科恩说道。

客户应与提供多个地点的多家提供商签订协议,从而可以在单个销售商发生故障时能够幸免于难,他指出。

但是,这种方式现实吗?里维斯给出了否定的回答,只是对于大多数客户是如此。云计算应简化应用的部署和管理。创建一个可工作于多家销售商平台上的应用需要大量的额外投入。

“无法在多家云提供商上构建应用的原因在于,缺少标准和互操作性。”里维斯说道:“如果你是应用创建者,你需要增加存储或计算容量,这些容量的分配、收费和使用,对于每个提供商都是不同的。这不是做不到,而是非常非常困难。”

还有一个更简单的想法:只使用亚马逊的服务并且应用平衡分布在多个地区。但是,这个想法并不是想象的那么简单。亚马逊没有提供必要的工具,可以在地区之间进行负载平衡,所以客户必须在他们亚马逊例程之上使用额外的软件,里维斯指出。亚马逊的负载平衡服务可在多个可用区上工作(与周四出现故障的那些服务相同),而不能跨地区工作。

无论任何时候,如果出现云故障,总会有人质疑所有的云计算服务。但事实并非如此,里维斯如此说,并指出“每个人都会有宕机的时候”。云计算的不同之处在于云服务提供商将风险积聚在一处——许多公司使用一个平台运行他们的网站,一旦该平台出现服务中断,相对于一家公司内部数据中心出现故障,将会吸引更多的注意。

一家云服务提供商出现故障不应抱怨所有的云计算都不可靠。里维斯指出,这的确令想要使用云服务的企业三思,在将服务转移到云之前进行经济分析,他们会更加小心。如果公司将主要的业务运行在亚马逊平台之上,那么发生中断故障时他们将数百万美元的收入损失,为了不用在公司内部创建 IT 服务以节省成本而承担这种潜在发现是否值得?

服务等级协议可能会提供赔偿或贷款,但如果中断故障导致数千万美元的损失,亚马逊将不会提供赔偿,里维斯如此说道。

【编辑推荐】

  1. 使用Microsoft Azure 让云迁移变得简便的5种方法
  2. VMware的混合云迁移工具:vCloud Connector
  3. 企业CRM等业务系统迁移到 “云”中的***实现 
  4. 云计算该“迁移”还是“自建”? 
  5. 云迁移全攻略:哪些应用适合迁移
  6. 亚马逊 谷歌 微软三大试用云服务大比拼(上)
  7. 亚马逊推出1年免费云计算服务

 

文章来源网络,作者:管理,如若转载,请注明出处:https://shuyeidc.com/wp/145753.html<

(0)
管理的头像管理
上一篇2025-03-10 18:44
下一篇 2025-03-10 18:45

相关推荐

  • 骨干网络体系结构能干什么?骨干网络体系结构的作用

    骨干网络体系结构是现代信息社会的“超级高速公路网”,它通过分层设计、冗余备份和智能调度,确保海量数据在全球范围内高速、稳定、安全地传输,是支撑云计算、物联网及人工智能应用的底层基石,想象一下,如果你把互联网比作一个巨大的城市交通系统,那么骨干网络就是连接各个城市的主干道和立交桥,没有它,你的每一次微信发送、每一……

    2026-06-18
    0
  • 高io数据库可以干什么用?高io数据库适合什么场景

    高IO数据库的核心价值在于通过极高的读写吞吐量,解决海量数据场景下的性能瓶颈,是支撑高并发交易、实时分析及大规模内容分发的关键基础设施,在数字化转型的深水区,数据不再仅仅是静态的记录,而是流动的资产,传统的机械硬盘或普通SSD早已无法满足现代应用对速度的极致追求,高IO(Input/Output)数据库,就是那……

    2026-06-18
    0
  • 高io服务器性能如何?高io服务器适合什么场景

    高IO服务器并非单纯指代某种硬件,而是指在随机读写、高并发连接及小文件处理场景下,具备极致IOPS(每秒输入输出操作次数)和低延迟特性的计算资源,它是支撑现代高并发应用稳定运行的核心基石,在2026年的数字化浪潮中,业务负载早已从简单的静态页面展示演变为复杂的实时数据处理,许多开发者在排查系统瓶颈时,往往忽略了……

    2026-06-18
    0
  • 隔离网络空间哪里便宜?国内隔离网络空间价格

    隔离网络空间并没有统一的“便宜”标准,其成本高度取决于物理隔离等级、带宽需求及安全合规要求,通常物理网闸方案初期投入较高但长期运维成本低,而逻辑隔离方案虽初期便宜但存在潜在安全风险,建议根据业务敏感度选择混合隔离架构以平衡成本与安全,在数字化时代,企业构建独立网络环境的需求日益增长,但“隔离网络空间哪里便宜”这……

    2026-06-18
    0
  • 骨干网络体系结构设备为何故障?常见原因有哪些

    骨干网络体系结构设备故障的核心原因通常归结为硬件老化、配置错误、物理链路中断及外部攻击四大类,其中电源模块失效与光模块性能衰减是占比最高的隐性故障源,骨干网作为数字经济的“大动脉”,其稳定性直接关乎国计民生,当核心路由器或交换机出现丢包、震荡甚至宕机时,运维人员往往面临巨大的压力,很多人第一反应是检查软件配置……

    2026-06-18
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注