人们可以从Facebook的业务中断中学到什么

据报道,Facebook公司的主要业务在10月4日(星期一)发生严重的中断事件。此次大规模宕机对于负责构建和维护其技术和应用的人员来说是难以应对的。虽然宕机事件对于Facebook公司并不是新鲜事,但此次中断肯定是载入该公司史册的一次宕机事件。

[[428032]]

Facebook公司在10月4日晚间发表了一份简短声明,主要是为了反驳在社交媒体上传播的阴谋论。随后在10月5日公布了导致业务宕机的更多细节。

该公司发表的一篇博客文章基本证实了人们已经知道的事情,正如Cloudflare所详述的那样:Facebook公司以某种方式设法阻断从外部互联网到运行Facebook、Instagram、WhatsApp和其他属性的服务器的途径,并进行了例行维护。

Facebook公司运营着庞大的网络设施,其中包括自己的数据中心以及分散在世界各地的名称为“存在点”的小型数据中心设施,用于收集入站流量,并通过Facebook公司的专用网络将这些数据引导至最终目的地。

服务器和网络设备由于各种原因容易出现故障,检查网络上是否有任何故障是工程人员日常工作的一部分。但在10月4日早上,例行检查以某种方式执行,并作为命令将Facebook的所有连接从其骨干网络撤回。

该公司在其发表的一篇帖子中表示,本应检测配置更改中潜在的灾难性错误的审计工具失效,因为该审计工具中的一个错误使其无法终止发布的命令。

Facebook公司运营的基础设施选择使问题更加复杂,而很久以前就其内部设施做出的决定使得从这个错误中恢复比其他公司要困难得多。

Facebook公司几乎完全依赖自己的基础设施和定制服务来满足其运营所需的几乎所有需求,相比之下,其他规模和资源相同的科技公司至少在部分使用第三方提供商提供的基础设施来满足需求。

这其中包括DNS服务器,它们运行在那些规模较小的接入点设施中。这些服务器告诉Facebook公司的数据中心对其内容的传入请求来自何处,并为请求“facebook.com”的浏览器提供一条通往该目的地的计算机的途径。

Facebook公司的DNS服务器的设计旨在告知对“facebook.com”的入站请求,如果它们检测到该路径有问题,则避开通往数据中心的特定路径,因为长时间的延迟都会导致糟糕的用户体验。在正常情况下,工作路径比故障路径多得多,而且很容易找到快速绕行的路径。

然而,当所有这些路径都消失时,那些以其他方式运行的DNS服务器不知道Facebook的服务器在哪里,迫使它们向手机和浏览器返回错误消息。

让事情变得更加困难的是,Facebook公司的内部通信和灾难恢复工具依赖于与容纳这些DNS服务器的设施的连接。

到目前为止所描述的一切都发生在10月4日早上大约两分钟的时间里。重要的是Facebook公司需要快速恢复这个网络规模的错误,而这种恢复比以往更加艰难。而不知什么原因,Facebook与其服务器的带外连接(当主要网络出现故障时的正常备份计划)也失败了。这意味着需要物理访问其数据中心设施才能解决问题。

虽然Facebook公司实际上并不需要修改其服务器框架来解决问题,但确保允许具有专业人员进入最近的数据中心并处理相关服务器故障所花费的时间比人们想像的要多。

每一次宕机都是一次学习的机会,即使对于像Facebook公司这样似乎不愿意从其他领域的错误中吸取教训的公司也是如此。以下是从这件事可以学到的三个经验和教训:

  • 做好最坏的打算。企业需要制定针对计算资源或网络连接完全丢失的应急计划,而不仅仅是数据中心或云计算区域发生故障。
  • 采用多个服务商的服务。虽然互联网整体瘫痪的可能性极小,但采用多个云计算服务提供商的云计算服务注是值得的。
  • 检查优先事项。如果没有采用大量的自动化技术,就无法实施Facebook公司那样大规模的操作,这意味着代码审计工具(例如未能阻止此次中断的工具)需要额外关注。

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/129202.html<

(0)
运维的头像运维
上一篇2025-02-25 12:16
下一篇 2025-02-25 12:17

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注