防止基础设施停运的四个步骤

我们过着忙碌的日子,这让大家都毫无耐心可言;需要多个步骤的私人任务会让人觉得难以对付。一个典型的例子是:预先规划,为全家出行订购机票。

比如说,你好不容易挤出半小时的时间上网购票,看看大家有没有空,到了秋天探望外婆,以便能在机票大促销之际淘到实惠。可是如果你访问不了经常光顾的那家航空公司的网站,或者访问起来速度特慢,因而无法完成购票,那种沮丧可想而知。你是说“好吧”,过后再试一试,还是会去查看其他航空公司的机票?极有可能会是后者,此外你可能恼怒不已,于是在社交网站上吐槽这次糟糕的经历。

美国西南航空公司在今年6月初遇到了网站速度变慢持续多日的故障,当时它正在搞秋季机票促销的活动。高出预期的网站流量导致其网站速度大幅下降,以至于对大多数客户来说,网页超时打不开。更要命的是,免费热线电话同样打爆了,根本打不进去。西南航空公司照例料到了每年秋季机票促销会迎来更旺盛的需求,但事先投入的额外容量不够充足。这番解释不可能让觉得不便的客户感到满意,也不可能让哀叹收入损失的主管们感到满意。

在我们这个始终联通的无线世界,广大客户对电子商务的要求在不断地迅速提高。哪怕网站性能差强人意几秒钟(更不用说几天了!),就足以将忠诚的客户送到他人怀里。IT部门证明自身价值的办法就是,通过成熟的、优化的容量管理,让业务部门能够满足这些更高的要求。

那么,企业组织如何才能避免诸如此类的客户服务灾难呢?这归结为做好容量管理的四个必要部分:预测及预防、分析有意义的度量指标、规划时兼顾业务需要以及反复测试。

预测及预防

想避免收入和信誉损失、客户流失,***的办法就是预防停运,尤其是无法怪罪于重大灾难的那种日常故障。要收集和分析机器、电源、日志、使用情况和成本数据,尤其要注重性能和资源使用情况。详细地清查和评估当前容量。与面向客户的业务部门合作,根据历史数据以及规划的未来项目,共同找出使用方面的趋势。

一旦你收集并关联了有意义的数据集,就可以运用预测性分析手段了。这样一来,可以对照数据(根据当前容量及/或规划容量)模拟场景,那样让IT部门可以预测停运事件有可能因过度使用或机器故障而出现在哪个时间点。利用详细的数据深入挖掘,分析导致任何意外结果的根源,那样就能查明弱点,一劳永逸地加以解决,以便演变成令人尴尬的公众事件。

数据驱动的智能预测(可能的话还有模拟)可以揭示流量方面预计增长或猛增的级联效应。有了准确的预测,才有可能认真而经济高效地配置足够的资源,根据需要满足需求,而不是在容量匮乏影响最终用户后,随意地添加容量。

分析响应,而不是分析机器利用率

由于数据中心中生成那么多的数据,可能很难知道该分析哪些数据,而IT部门常常分神,把注意力放在只能表明部分情况的度量指标上。要关注性能,而不是机器利用率;要了解你的客户如何访问、何时访问及为何访问你的网站,以及他们对网站性能有怎样的要求。开清楚最终用户的实际要求和体验。如果规划未来的业务项目,务必要明白业务目标,还要明白最终用户需要实施的变化理应解决什么样的问题。

在技术方面,认真分析延迟和响应时间,以便从统计学角度准确洞察最终用户体验。分析工作负载事务、应用程序性能和虚拟机,看看多少时间用在服务活动上、又有多少时间用在等待资源上。进行必要的调整,以便针对面向最终用户的工作负载和事务进行优化。

合理规划

如果说一分预防胜过十分治疗,那么妥善的计划可以避免大量的补救。要预料到销售(想想西南航空公司)、促销、部署新的应用程序和网站、季节性或时段性流量激增带来的影响。做这种类型的规划时,与业务部门(营销、促销和运营等部门)进行合作很重要,其重要性再怎么强调都不为过。规划架构升级时,别忘了运行模拟所需要的时间和资源,那样你才能准确地了解架构在各种场景下对最终用户而言会有怎样的性能。

你不可能预测每一种可能的结果,也不可能控制每一个因素,所以规划响应停运或速度减慢的体系很要紧。响应的速度和效果关系到停运是小问题还是大灾难。西南航空公司的停运事件整整延续了两天,这在分秒必争的电子商务时代简直不可想象,大量的电话很快让网站之外的唯一选择:热线电话也不堪重负。事件响应规划是企业核心服务和竞争能力的一个重要组成部分。

反复测试

与合理规划一样,测试也需要时间和资源,而证明有必要为测试投入时间和资源可能有难度。记住这一点很重要,全面的、针对性的测试能揭示不可预见的不兼容性、故障和容量问题。今年早些时候,一台内部域名服务器(DNS)上所犯的配置错误导致iTunes和苹果商店停运,结果让苹果在短短12个小时损失了估计2500万美元的收入。

在每次变化或升级前后都要进行测试。测试人员往往忽视了之前或之后的测试,或者只管测试,而不解释测试结果的种种差异。针对各种场景反复测试有助于防止客户流失和收入流失,服务出现故障后常常会出现这种双重流失。它还避免了令人尴尬的公众事件以及随后而来的品牌或名誉受损,而这会带来深远的影响。

healthcare.gov网站大瘫痪就是个典型的警世故事;缺少规划和测试引起的大范围服务故障和延迟在社会、经济和公共福利方面带来了深远影响,可能多年过后仍没有消散。

在巨大而复杂的网站和在线服务生态系统中,想确保***无缺的性能,要兼顾太多的因素。保持竞争优势取决于赢得并留住满意的客户,要是没有经过优化的IT服务交付体系,就很难做到这一点。只有结合数据,深入了解你的系统以及客户如何与系统进行互动,做好容量规划和测试工作,才是确保基础设施有弹性、业务获得发展的关键。

英文:4 Steps To Prevent Infrastructure Outages

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/130484.html<

(0)
运维的头像运维
上一篇2025-02-26 02:42
下一篇 2025-02-26 02:44

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注