亚马逊使用Aurora替换Oracle:导致Prime Day促销日瘫痪

亚马逊使用Aurora替换Oracle:导致Prime Day促销日瘫痪

作者:佚名 2018-10-25 15:04:57

云计算 哥伦比亚大学的计算机科学教授亨宁•舒尔茨莱宁(Henning Schulzrinne)看了文件后说:“我猜想,亚马逊刚更换了数据库,并没有测试在亚马逊Prime Day那天出现的具体的负载模式,结果大吃一惊 ”。

  • 据外媒CNBC获得的内部文件显示,亚马逊迁离Oracle的数据库使用Aurora PostgreSQL是Prime Day促销日陷入瘫痪的主要原因。
  • 这次故障突显了亚马逊希望在2020年之前完全摆脱Oracle数据库的过程中可能面临的挑战。
  • 近年来亚马逊和Oracle在打口水仗,声称自家数据库软件和云工具的性能更胜一筹。

亚马逊现在算是领教了迁离Oracle数据库软件有多困难。

[[247571]]

据CNBC获得的一份内部报告显示,在Prime Day促销日,这个头号电子零售商一边忙着处理导致销售流程减慢的重大网站故障,一边忙着应对其在俄亥俄州***的一个仓库遇到的技术问题,该技术问题导致成千上万件包裹发货延迟。

文件显示,这个问题很大程度上归咎于亚马逊从Oracle数据库迁移到自家的数据库技术。这次故障突显了亚马逊希望在2020年之前完全摆脱Oracle数据库的过程中可能面临的挑战,以及重新获得这种级别的可靠性有多难。这还表明Oracle的数据库在一些方面确实比亚马逊的同类软件更高效,Oracle可能会在本周于旧金山举行的年度OpenWorld大会上强调这一点。

Prime Day故障发生后,亚马逊的工程师撰写了一份长达25页的报告,亚马逊称这是纠正错误。亚马逊采用这套标准流程,试图了解重大事故为何发生、如何防止将来重蹈覆辙。

报告显示,亚马逊努力查明Prime Day问题的根本原因,原因是数据库迁移之后丢失了一项功能。文件显示,万一刚安装的数据库(名为Aurora PostgreSQL)出现错误,亚马逊也未给出应急方案。

在一个问题中,工程师被问及为什么亚马逊的仓库数据库没有遇到“上一次流量高峰期间(那时使用Oracle数据库)的同一个问题”。他们回答,“Oracle和Aurora PostgreSQL是两种不同的[数据库]技术”,处理“保存点”(savepoint)的方式不一样。

保存点是一种重要的数据库工具,用于跟踪和恢复单个事务。报告称,在Prime Day当天,创建了数量过多的保存点,亚马逊的Aurora软件不堪重负,因而拖累了数据库的整体性能。

无论如何都有可能发生

CNBC透露了文件的细节后,伊利诺伊大学厄巴纳-尚佩恩分校的计算机科学教授马特•西泽(Matt Caesar)说:“如果亚马逊坚持使用Oracle数据库,很可能不会发生这次故障。此外,如果亚马逊使用Oracle的数据库,似乎能够更早地诊断问题,从而有望缩短故障的持续时间。”

亚马逊的发言人在通过电子邮件发表的声明中对这个问题轻描淡写,称没有什么故障,尽管内部文件声称数据库“性能降级导致了滞后和严重故障。”

发言人说:“有必要指出这一点,那就是该仓库从未发生过什么故障,问题只是导致了约1%的包裹出现短时间的发货延迟。这个问题很快查明并得到了解决。”

俄亥俄州的这个仓库是在Prime Day之前迁离Oracle数据库的13个仓库中***的一个。文件称,在Prime Day促销活动期间,该仓库每天处理的包裹超过110万件。处理库存和发货数据的所有服务和软件已统统迁移到了那些仓库中的Aurora数据库上。

据报告声称,这次故障在Prime Day持续了数小时,导致15000多件包裹发货延迟,还浪费了约90000美元的劳动力成本。损失不包括工程师们排除和修复错误所耗费的所有时间或任何可能错失的销售订单。

在报告里头名为“汲取教训”的部分,亚马逊的工程师写道:“保存点在Aurora PostgreSQL中的行为与其在Oracle中的行为不一样”,言外之意是Oracle的软件处理问题更有效。报告还称,没有用于PostgreSQL中分析的SQL语句数据,而要是有该数据,“原本有助于查明”问题的根本原因。

要是亚马逊做好更充分的准备,这次故障也许不那么严重。在文件的一个部分,该公司称,由于“底层PostgreSQL数据库遇到性能问题时缺少应对方案”,“结果花了很长的时间才解决”问题。文件还声称,一份“完备的应对方案或操作手册”原本有助于“更快地消除影响”。

哥伦比亚大学的计算机科学教授亨宁•舒尔茨莱宁(Henning Schulzrinne)看了文件后说:“我猜想,亚马逊刚更换了数据库,并没有测试在亚马逊Prime Day那天出现的具体的负载模式,结果大吃一惊 ”。

近年来,亚马逊和Oracle一直在打口水仗,原因是亚马逊扩大了软件品种,与Oracle更加正面较量了。CNBC在8月份曾报道,亚马逊正努力在2020年初之前将整套数据库从Oracle迁移出去。

“真的很难”

Oracle董事长兼联合创始人拉里•埃里森才不信亚马逊的说法。在该公司去年12月份的财报电话会议上,埃里森称亚马逊“没有迁离Oracle”。他在今年8月份的一次活动中重申了观点,他说:“我认为亚马逊做不到这一点。”

他说:“亚马逊有10年的时间来迁移Oracle,但现在仍使用Oracle。而使用自己的技术对它们来说并不容易。那么做不具有成本效益。我的意思是,真的很难。”

市场研究公司Moor Insights & Strategy的***分析师帕特里克•穆尔黑德(Patrick Moorhead)表示,这一事件表明,旧的应用软件(就像亚马逊仓库中使用的那些应用软件)迁离Oracle有多难;几十年来,Oracle一直在与世界上***的企业合作。

他说:“AWS Aurora是为前瞻性应用软件设计的,而Oracle是为较传统的应用软件设计的。”

论文:Amazon Aurora:高吞吐量云原生关系数据库在设计方面的考量

 

 

 

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/306386.html<

(0)
运维的头像运维
上一篇2025-05-26 15:27
下一篇 2025-05-26 15:28

相关推荐

  • hypervmart是什么,hypervmart官网入口

    hypervmart 在 2026 年是否值得投资?核心结论:是,但需精准匹配供应链场景hypervmart 作为 2026 年跨境零售与 B2B 融合的新兴平台,其核心价值在于利用 AI 驱动的供应链优化技术,为中小卖家提供低于行业平均 15% 的履约成本,但成功与否高度依赖卖家对“跨境物流时效”与“海外仓选……

    2026-05-02
    0
  • RAKsmart独立服务器2026年测评,CN2 GIA实测数据与性能表现,CN2 GIA服务器到底怎么样,CN2 GIA独立服务器推荐

    RAKsmart 独立服务器在 2026 年已确立为连接中国内地与全球的高性能网络枢纽,其 CN2 GIA 线路实测延迟稳定在 35ms 以内,吞吐量突破 900Mbps,是跨境业务场景下兼顾稳定性与性价比的优选方案,核心网络性能深度解析2026 年 CN2 GIA 线路实测数据在 2026 年的网络架构中,R……

    2026-05-02
    0
  • hosteonsVPS测评,实测体验,hosteonsVPS怎么样?

    Hosteons VPS 在 2026 年的实测表现显示,其依托全球 BGP 线路优化与 NVMe 全闪存架构,在亚洲至北美跨洋延迟控制上表现优异,是追求高性价比与稳定性的中小型企业首选,但需注意其部分机房在晚高峰期的波动风险,核心性能与网络架构深度解析在 2026 年云计算基础设施全面向 AI 算力与边缘计算……

    2026-05-02
    0
  • BaCloud独立服务器测评不限流量实测表现,BaCloud独立服务器不限流量怎么样

    2026 年实测结论:BaCloud 独立服务器在不限流量场景下表现优异,特别适合高并发视频流媒体与大数据传输业务,其性价比与稳定性在同类竞品中处于第一梯队,但需关注其节点覆盖密度,在 2026 年云计算市场进入存量博弈与精细化运营并存的阶段,企业用户对于“不限流量”的诉求已从单纯的带宽大小转向实际吞吐能力与计……

    2026-05-02
    0
  • 香港旅游好去处,香港自由行攻略,香港签证怎么办理

    2026 年香港作为全球顶级金融与科创枢纽,其核心优势在于“一国两制”下的资金自由流动、低税率环境及与国际市场无缝对接的法治体系,是跨境企业布局亚太的首选地,2026 香港宏观环境:政策红利与产业格局进入 2026 年,香港在巩固国际金融中心地位的同时,正加速向“国际创新科技中心”转型,根据香港特区政府统计处及……

    2026-05-02
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注