如何有效地管理不可避免的IT中断

过去的几个月中,发生了一些重大的IT故障事件:富国银行的业务停止运营长达一天导致客户无法访问他们的账户;芝加哥铁路公司故障导致60000名乘客滞留;以及由于Gmail和Google Docs发生故障而导致全球各地用户无法访问和使用这些产品。此外,今年2月VFEmail.net所有客户端数据(包括备份)完全丢失。

[[264775]]

制定计划

这些事件和类似的IT问题为人们提供了两个重要的信息:

  • IT中断可能发生在任何人身上。
  • 下一次IT中断造成的损害程度取决于现在的准备情况。

值得注意的是,超过60%的IT中断或“灾难事件”都是由人为错误引起的。那么,企业如何才能减少下一次IT中断对其收入、声誉和客户造成的损害?

首先,确保企业有一个业务连续性计划(BCP),其中包括灾难恢复计划(概述企业将如何处理IT事务)以及保持业务其余部分的计划(例如,如果关键渠道是确保关键人员知道发生了什么、会面地点、定义指挥链等等)。

在这里将概述在IT方面取得成效的四个关键步骤:

1. 定义潜在的灾难情景

对于大多数企业而言,主要有两种IT灾难场景:

  • 系统中断,网络或应用程序的某些关键部分出现故障,企业或其服务在一段时间内处于“脱机”状态。这通常是一个相对简单的恢复点,因为企业重新上线运营,受停机影响的事务最少。
  • 数据丢失,企业丢失信息、内容或数据(企业自己或其客户)。并不总是可以从数据丢失中恢复,例如在VFEmail.net的黑客事件中,删除了其所有备份副本。

确保企业为灾难做好准备是需要了解这些常见类型的中断的风险状况:例如,系统中断会影响哪些功能?这些功能对企业的业务有多重要?中断是否会导致数据丢失?还有哪些其他事件会导致数据丢失?等等。

此外还要记住,人为错误将是造成这两种灾难的最常见原因(如在芝加哥铁路公司的停机事件中,一名工人在更新服务器期间摔倒在电路板上)。

2. 评估对企业的业务可能造成的损害

这是IT部门和其他领导共同完成的工作。企业的目标是了解如果单个数据块出现故障或各种类型的数据丢失,其业务将受到的影响。

在这些对话中,目的是了解业务关键型应用程序之间的依赖关系(例如,企业知道需要激活支付处理应用程序,但它是否取决于库存应用程序的功能?)阐明停机对用户的影响,并评估每分钟停机对企业的业务的财务影响。

以下是衡量的标准:

  • RTO(恢复时间目标),定义企业的业务可以在业务中断之后多长时间而不会造成严重损害。企业的灾难恢复计划应概述通过企业定义的RTO(恢复时间目标)恢复业务运营的策略。
  • RPO(恢复点目标),定义数据备份之间的时间长度,而不会显著损害企业和业务运营。企业的业​​务中断分析将定义企业的RPO(恢复点目标)。因此,如果企业的灾难恢复计划要求从上次已知备份中恢复数据,则RPO(恢复点目标)会定义该备份可接受的时间。

如果企业想再采取其他步骤,请确保评估中包含对停机时间可能造成声誉损害的评估。这很难计算,但它可以成为决策过程中的一个有价值的组成部分。

3. 查看当前的灾难恢复计划

一旦企业了解了自己可以合理承担的停机时间,请查看其当前的灾难恢复计划。如果像大多数企业一样拥有一个灾难恢复计划,但是没有努力去更新或者定期测试它,那么现在是时候改变了。

在查看灾难恢复计划时,请考虑以下事项:

  • 它是否反映了企业当前业务的现实情况,包括企业之前的对话中阐述的业务关键型应用的计划?如果没有,就需要更新它。
  • 规模合适吗?IT团队非常擅长提出创造性的灾难恢复方法。这部分是因为这些系统是他们创建的,他们非常适应所有可能出错的方式。但精心设计的灾难恢复通常不仅仅是企业的需求,而且比其能够承受的成本更高。如果企业确定可以承受三天的停机时间,并且当前的灾难恢复计划让其在六小时内重新上线运营,则需要进行一些更改。
  • 企业测试过吗?制定了许多灾难恢复计划来检查选项或满足监管要求。但如果企业没有测试自己的计划,那么在真正的灾难中对企业毫无价值。企业无法知道它是否会实际阻止意外中断和数据丢失可能导致的收入损失和声誉损害。

4. 更新并测试企业灾难恢复计划

大多数企业不会定期更新和测试他们的灾难恢复计划,这是一个很大的问题,因为过时的灾难恢复计划在发生真正灾难时或多或少地变得毫无价值。

在进行更改时,请执行以下步骤:

  • 指派专人负责灾难恢复和测试。这意味着如果出现错误,就会有人负责,这会大大增加测试完成的机会。
  • 确保企业管理层与制定灾难恢复计划和进行定期压力测试的重要性保持一致。这对于获得非IT同事所需的参与至关重要。
  • 包括“灾难”的定义。管理人员知道何时以及如何启动灾难恢复计划,停机一小时后?一天?也可以确定联系人,如果不在,还有哪个人可以处理。
  • 制定防灾规则。之前提到的芝加哥铁路公司灾难发生的部分原因是因为该公司在高峰时段对服务器进行了升级。这是一个令人难以置信的却可以避免的错误:如果那名工人没有在半夜摔倒在电路板上,就不会有那么多客户受到影响。
  • 包括沟通计划。在灾难期间(“发生的事情”)和灾难之后(“发生的事情和正在做的事情以提高未来的绩效”)与利益相关者保持透明,对于减轻灾难可能造成的声誉损害将有很大的帮助。

有效的灾难恢复就是细节

虽然每个企业都应该拥有并测试灾难恢复计划,但企业能够满足他们的需求或应对灾难的方式并不都是相同的。对于任何企业来说,灾难恢复应该基于两个方面:风险状况和从事件中恢复的能力。

为了确保企业的下一次IT中断对其客户、收入、声誉造成尽可能小的损害,需要花费时间了解可能出现问题的具体情况以及这些问题将如何影响其客户,并制定灾难恢复计划以尽量减少这种影响。

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/121735.html<

(0)
运维的头像运维
上一篇2025-02-22 00:38
下一篇 2025-02-22 00:39

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注