亚马逊使用Aurora替换Oracle:导致Prime Day促销日瘫痪

亚马逊使用Aurora替换Oracle:导致Prime Day促销日瘫痪

作者:佚名 2018-10-25 15:04:57

云计算 哥伦比亚大学的计算机科学教授亨宁•舒尔茨莱宁(Henning Schulzrinne)看了文件后说:“我猜想,亚马逊刚更换了数据库,并没有测试在亚马逊Prime Day那天出现的具体的负载模式,结果大吃一惊 ”。

  • 据外媒CNBC获得的内部文件显示,亚马逊迁离Oracle的数据库使用Aurora PostgreSQL是Prime Day促销日陷入瘫痪的主要原因。
  • 这次故障突显了亚马逊希望在2020年之前完全摆脱Oracle数据库的过程中可能面临的挑战。
  • 近年来亚马逊和Oracle在打口水仗,声称自家数据库软件和云工具的性能更胜一筹。

亚马逊现在算是领教了迁离Oracle数据库软件有多困难。

[[247571]]

据CNBC获得的一份内部报告显示,在Prime Day促销日,这个头号电子零售商一边忙着处理导致销售流程减慢的重大网站故障,一边忙着应对其在俄亥俄州***的一个仓库遇到的技术问题,该技术问题导致成千上万件包裹发货延迟。

文件显示,这个问题很大程度上归咎于亚马逊从Oracle数据库迁移到自家的数据库技术。这次故障突显了亚马逊希望在2020年之前完全摆脱Oracle数据库的过程中可能面临的挑战,以及重新获得这种级别的可靠性有多难。这还表明Oracle的数据库在一些方面确实比亚马逊的同类软件更高效,Oracle可能会在本周于旧金山举行的年度OpenWorld大会上强调这一点。

Prime Day故障发生后,亚马逊的工程师撰写了一份长达25页的报告,亚马逊称这是纠正错误。亚马逊采用这套标准流程,试图了解重大事故为何发生、如何防止将来重蹈覆辙。

报告显示,亚马逊努力查明Prime Day问题的根本原因,原因是数据库迁移之后丢失了一项功能。文件显示,万一刚安装的数据库(名为Aurora PostgreSQL)出现错误,亚马逊也未给出应急方案。

在一个问题中,工程师被问及为什么亚马逊的仓库数据库没有遇到“上一次流量高峰期间(那时使用Oracle数据库)的同一个问题”。他们回答,“Oracle和Aurora PostgreSQL是两种不同的[数据库]技术”,处理“保存点”(savepoint)的方式不一样。

保存点是一种重要的数据库工具,用于跟踪和恢复单个事务。报告称,在Prime Day当天,创建了数量过多的保存点,亚马逊的Aurora软件不堪重负,因而拖累了数据库的整体性能。

无论如何都有可能发生

CNBC透露了文件的细节后,伊利诺伊大学厄巴纳-尚佩恩分校的计算机科学教授马特•西泽(Matt Caesar)说:“如果亚马逊坚持使用Oracle数据库,很可能不会发生这次故障。此外,如果亚马逊使用Oracle的数据库,似乎能够更早地诊断问题,从而有望缩短故障的持续时间。”

亚马逊的发言人在通过电子邮件发表的声明中对这个问题轻描淡写,称没有什么故障,尽管内部文件声称数据库“性能降级导致了滞后和严重故障。”

发言人说:“有必要指出这一点,那就是该仓库从未发生过什么故障,问题只是导致了约1%的包裹出现短时间的发货延迟。这个问题很快查明并得到了解决。”

俄亥俄州的这个仓库是在Prime Day之前迁离Oracle数据库的13个仓库中***的一个。文件称,在Prime Day促销活动期间,该仓库每天处理的包裹超过110万件。处理库存和发货数据的所有服务和软件已统统迁移到了那些仓库中的Aurora数据库上。

据报告声称,这次故障在Prime Day持续了数小时,导致15000多件包裹发货延迟,还浪费了约90000美元的劳动力成本。损失不包括工程师们排除和修复错误所耗费的所有时间或任何可能错失的销售订单。

在报告里头名为“汲取教训”的部分,亚马逊的工程师写道:“保存点在Aurora PostgreSQL中的行为与其在Oracle中的行为不一样”,言外之意是Oracle的软件处理问题更有效。报告还称,没有用于PostgreSQL中分析的SQL语句数据,而要是有该数据,“原本有助于查明”问题的根本原因。

要是亚马逊做好更充分的准备,这次故障也许不那么严重。在文件的一个部分,该公司称,由于“底层PostgreSQL数据库遇到性能问题时缺少应对方案”,“结果花了很长的时间才解决”问题。文件还声称,一份“完备的应对方案或操作手册”原本有助于“更快地消除影响”。

哥伦比亚大学的计算机科学教授亨宁•舒尔茨莱宁(Henning Schulzrinne)看了文件后说:“我猜想,亚马逊刚更换了数据库,并没有测试在亚马逊Prime Day那天出现的具体的负载模式,结果大吃一惊 ”。

近年来,亚马逊和Oracle一直在打口水仗,原因是亚马逊扩大了软件品种,与Oracle更加正面较量了。CNBC在8月份曾报道,亚马逊正努力在2020年初之前将整套数据库从Oracle迁移出去。

“真的很难”

Oracle董事长兼联合创始人拉里•埃里森才不信亚马逊的说法。在该公司去年12月份的财报电话会议上,埃里森称亚马逊“没有迁离Oracle”。他在今年8月份的一次活动中重申了观点,他说:“我认为亚马逊做不到这一点。”

他说:“亚马逊有10年的时间来迁移Oracle,但现在仍使用Oracle。而使用自己的技术对它们来说并不容易。那么做不具有成本效益。我的意思是,真的很难。”

市场研究公司Moor Insights & Strategy的***分析师帕特里克•穆尔黑德(Patrick Moorhead)表示,这一事件表明,旧的应用软件(就像亚马逊仓库中使用的那些应用软件)迁离Oracle有多难;几十年来,Oracle一直在与世界上***的企业合作。

他说:“AWS Aurora是为前瞻性应用软件设计的,而Oracle是为较传统的应用软件设计的。”

论文:Amazon Aurora:高吞吐量云原生关系数据库在设计方面的考量

 

 

 

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/306386.html<

(0)
运维的头像运维
上一篇2025-05-26 15:27
下一篇 2025-05-26 15:28

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注