支付宝灾备能力为何引发争议

5月27日下午5点,拥有将近3亿活跃用户的支付宝出现了大面积访问故障,全国多省市支付宝用户出现手机和电脑支付宝无法登陆、余额错误等问题。对于导致此次事件的原因,蚂蚁金服方面的解释并未获得金融和互联网界的广泛认同。

在蚂蚁金服发给《财经》的官方回应中称,出现这一问题的原因在于市政施工导致杭州市某地光缆被挖断,影响了支付宝一个主要机房的正常运转。当天晚上19时左右,即在事故发生大约两个多小时以后,支付宝服务才恢复正常。

蚂蚁金服称,无法精确统计在故障时间段内使用支付宝的具体用户数量。

拥有超过4万亿年交易总额的支付宝是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。故障发生后,用户普遍担心账户资金安全问题,亦有用户反应出现账户余额不同步的现象。

蚂蚁金服对此回应,支付宝有完善的技术和措施保护用户的资金安全,支付宝中的任何一个交易,同时都会有多份记录,数据可靠性极高。如果有用户出现交易不同步的情况,后续都会得到妥善解决。

这份蚂蚁金服发给《财经》的官方回应还指出,支付宝异地多活的系统架构在此次意外中发挥了巨大作用:一方面,没有因光缆被挖断而影响全部用户;另一方面,紧急将故障机房的流量切换至了其他机房。在当晚7点支付宝服务恢复时,被挖断的光缆还没有修复。

蚂蚁金服一位高管向《财经》记者表示,大流量网站实时切换涉及资金时有难度,需要安全地将用户的数据,尤其是资金数据也切换到其它机房,所以切换操作需要花费较多的时间。“技术上可以做到更快恢复,之所以较慢是为了确保不丢数据。”

蚂蚁金服对于这次事故的内部总结是,数据校验较多,怕丢数据,所以花了较多时间。内部认为这是一次安全但不够漂亮的灾备实战,就好比跳水,起跳不错,空中动作也还行,但入水压水花不够好。

《财经》记者了解,支付宝采用异地双活的系统架构,的确有多个机房。正因为如此,本次支付宝杭州机房网络中断,只影响了一个机房,其它机房的业务不受影响。

但这依然受到外界质疑。质疑焦点有二:一是恢复时间竟然长达两个小时;二是究竟是出于资金安全考虑而主动放缓速度还是支付宝应急预案出现漏洞?

一位国有大型银行内部人士向《财经》记者表示,如果在银行的支付系统发生大面积瘫痪超过2个小时,已经属于重大安全事故,很有可能要向国务院汇报备案。

他向《财经》记者强调,传统金融机构发生这样波及全国范围的安全问题几率微乎其微,原因在于银行涉及用户资金的重要系统灾备方案十分完备,一般是“两地三中心”云备份方案,保证“同城灾备结合异地灾备”,目的在于防止重大灾难或战争等极端情况。

上述国有大型银行内部人士认为,正因为此,如果银行系统出现支付宝因光缆被挖断而导致一个数据中心停摆的情况,用户流量和系统会向同城或异地其他数据中心切换。“就算不会是即时切换,也不会花费太长时间,同城可能会更快,就是用户根本感受不到延迟。”

这一说法得到多位接受《财经》记者采访的电信技术人士的支持。中国电信的一位技术高层人士分析,服务故障切换机制应该是自动的,根据一定的事先设置的策略,无需人为干预,人工可以在服务切换后,再重新定义流量疏导方式。

该人士称,支付宝多中心制的网络架构设计,不同于普通用户接入光缆宽带服务,不可能只是用一个区域性的小机房,一根光缆被挖断了就断服务了。支付宝机房服务的路由应该非常多,不可能只接一家运营商,即便只是一家,肯定也是多路由接入。“数据路由就像供电,来自不同的变压器和能原地。”

一位曾在汤森路透工作的阿里巴巴程序员亦向《财经》记者表示,汤森路透号称世界最大金融网络,处理全球实时金融数据,要求不能宕机,哪怕自然灾害或战争。他们机房这样建的:两条不同电信公司的光缆和不同电力公司的电缆分别从机房的两个方向进入,同一个机房的所有系统实时双备份,并建设两个不同城市(巴黎、日内瓦)机房同时实时处理相同的数据。

某大型国企网络运维人员称,从技术角度看,支付宝此次事故可能是内部应用模块出了问题,未经严格验证的应用被统一升级后,被意外触发到未知状态,会导致此类问题。

上述运维人员还表示,经他观察,支付宝DBA(数据管理人员)紧急恢复了RPO=10days的完整数据(RPO,Recovery Point Objective,复原点目标,是指当服务恢复后,恢复得来的数据所对应时间点,理想的状态是RPO=0,故障出现立即恢复,但需要极大投入),并不停地进行分段增量数据恢复,历时约2小时余,这就是应用模块的问题。

上述中国电信技术人士则分析认为,出现这种问题的可能性是,支付宝多个数据中心之间的自动流量切换机制出现问题,只能人工介入。还可能是其他三种原因:一是很有可能是支付宝遭到了攻击;二是支付宝的路由配置瘫痪了;三是支付宝的云服务器瘫痪了,亚马逊也出现过这个问题。号称最先进最安全的阿里云系统对自家业务并没支撑好。

就以上相关问题,《财经》记者询问了蚂蚁金服方面,蚂蚁金服回应称,具体的技术分析正在加紧进行,但得出结论判断还需要一段时间。

微妙的是,在蚂蚁金服更早的一份媒体回应中称,之所以花费较长时间,是在流量向支付宝位于深圳的数据中心迁移的时候,切换系统也受到了光纤断裂的影响,所以切换上花费了一些时间。这与“技术上他们可以做到更快恢复,之所以较慢是为了确保不丢数据”这一说法并不一致。

另有行业人士评价,此次事件反应出支付宝在故障倒换能力和应急反应速度上还有待提高,反应出互联网公司在应急处理能力上的普遍短板,互联金融系统的运行稳定性并不如此前所宣称那样完善。在支付宝发生大面积瘫痪事故之后,互联网企业的运维人员建立微信群对此展开了讨论。

随着云计算和大数据的逐步普及,以及人们在互联网应用越来越重的资产托付,IT技术领域普遍呼吁互联网公司改变“尽力而为”的服务承诺和网络架构,向传统电信、IT领域高达99.999%的“5个9”安全级别靠拢。

蚂蚁金服表示,支付宝将不断提升灾备切换速度,希望未来这样的切换能让用户无感知或者最小化感知。

对于此次事故带来的具体损失额度,蚂蚁金服表示,暂时无法统计。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/144286.html<

(0)
运维的头像运维
上一篇2025-03-10 02:29
下一篇 2025-03-10 02:30

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注