自动化技术导致的七大严重安全事件

澳大利亚网络安全评估初创公司UpGuard梳理了过去几年的信息安全事件,列出了7大本为自动化公司IT系统却招致重大信息泄露的安全实例。

[[189274]]

 

1. Healthcare.gov:一个疏忽葬送美国政府的医疗健康网站

2013年10月,美国政府推行《平价医疗法案》的网上登记工具时,Healthcare.gov被寄予厚望;而数百万公民健康保障的交付压力,让风险越来越高。于是,当该网站上线仅2小时就因重大软件故障而崩溃时,政府遭到了相当大的抵制。由于缺乏集成、可见性和测试,该项目从一开始就埋下了重大隐患——Healthcare.gov的账户创建功能“ Account Lite ”中存在超过100个缺陷。

由于其功能,Account Lite 是 Healthcare.gov 网站的重要组成部分,供人们创建账户并访问自己的医疗健康选项。该模块问题太多,注定要引发灾难。尽管如此,承包商还是照原样推进了。

软件发布失败了,让数百万公民无法获得医疗保障。更遭的是,网站崩溃还引发了政治衍生影响,让《平价医疗法案》的反对者开始援引该事件作为政府无法发展成功医疗保障项目的铁证。网站最终稳定了下来,但并应在发布前就集成的工作,却是在崩溃发生后才做完。

2. Dropbox:让Dropbox掉线的小缺陷

没有哪个IT团队会喜欢掉线经历,尤其是掉线造成团队必须快马加鞭实现应急规程的时候。2014年1月,Dropbox就对一次计划产品升级造成的3小时掉线抓狂不已。

Dropbox脚本中的一个“小缺陷”,自动将其更新应用到了几台活动主机上,于是,上千台产品服务器受到影响,引发该公司在线服务崩溃。幸运的是,Dropbox的应急规程设计良好且有效。IT团队在备份和恢复策略的帮助下,在3小时内成功恢复了大部分服务。然而,某些大型数据库的恢复就慢得多了——全部核心服务完全恢复花去了Dropbox数天的时间。

3. 亚马逊/DynamoDB:DynamoDB数据库搅乱亚马逊基础设施

正如物流之类物理服务需要道路交通这样的物理基础设施,公司企业的数字服务也依赖于底层数字基础设施。2015年9月,亚马逊自动化基础设施过程中断,造成AWS平台宕机。从简单网络中断级联反应成大面积服务掉线,亚马逊经历了传统内部数据中心才会经历的那种断网——尽管它有非常先进和集成的云平台。

亚马逊的网络中断影响到其一部分DynamoDB云数据库的存储服务器。此事发生时,一些存储服务器还在请求其成员资格数据。于是,断线造成了检索和传输超时,这些服务器无法获得自己的成员资格数据,自动退出了服务。

当那些无法获得请求的服务器开始重新尝试请求的时候,DynamoDB超时问题便引发了更大面积的断网。如此,恶性循环产生,亚马逊客户有5个小时无法使用AWS。

4. Opsmatic:后患无穷

托管在传统服务器管理之下时,自动化往往也面临同样的古早IT问题。其中一个经典假定是:“没坏就别修复”——假定所有系统都按预设方式运行。所以,Opsmatic的常规服务器维护搞摊了其整个运营时,根源就出在事情并没有像他们原以为的那样进行。

该案例中,名为“清除默认用户”的方案在该公司AWS实验早期阶段被创建。如今,测试过去很久之后,该流程仍在生产服务器上悄悄运行,维护人员根本不得而知。

就像很多重大故障一样,该事件也是长期的无心之失造成的,这些小过失逐渐积累,终酿大祸。

5. Knight Capital:拼写错误致10亿美元损失

[[189276]]

不仅仅是管理性IT过程,其算法交易也被 Knight Capital 自动化了。然而,不幸的是,在真金白银处理事务中,这些改变和计划外的错误是有可能很快发生的。2012年,因为一个微小的错误,Knight Capital 在45分钟里以 $172,222/秒 的速度大量损失资金。

大规模数据中心运营中,服务器集群通常都会执行单个功能。这样可以将负载分配到更多的运算资源上,为高流量应用提供更好的性能表现。该模式要求集群中所有服务器都采用相同的配置,无论功能用到的是集群中哪个具体的服务器,这样所有的应用就会有相同的表现。然而,配置这种东西,即便筹备的时候是相同的,也总是会逐渐出现偏差的。

尽管做了自动化,Knight Capital 在服务器阵列上的代码部署却还是手动的,而一个不可避免的人为错误,导致了其8台服务器的配置与其他服务器不同。Knight Capital 的技术人员在部署新服务器代码时出了这个小错误,但却没人发现。IT员工便一直在这些服务器都是相同配置的错误认知下操作。

同时,一段已经退役的代码在错误配置的服务器上仍然可用。因此,该服务器开始向特定交易中心发送指令,围绕股票交易的多米诺骨牌效应产生,4.65亿美元交易损失不可避免。

6. 达美航空:自动化致航班停飞

[[189277]]

大型物流运营依靠自动化系统达成规模化所需的速度要求。有些航空公司在维持这些系统运行上举步维艰。就像传统的人工系统管理方式,自动化系统也受到错误配置的伤害。最近几年的最糟情形,便是这些系统宕机造成航空公司上亿美元的损失,及其客户信誉的丧失。

错误配置发生时,通过自动化机制,错误会被很快推送,造成整个系统宕机。对航空公司而言,这意味着航班运营中断,飞机延误,资金析出。2017年1月就发生过类似事件,达美航空自动化系统中的一个小故障引发断电,给航空公司造成1.5亿美元经济损失。

7. 谷歌Gmail:您有新邮件?Gmail崩溃事件

当技术巨头经历偶发自动化相关中断,一个小时的宕机所引发的后果会比表面上的损失更为深远。这些行业巨头想做任意改变,都必须覆盖成千上万台服务器。身处技术前沿的谷歌自动化其配置管理毫不意外。虽然是为了让操作更简单而设,当错误修改在自动化系统里发生,便意味着该错误会在数秒内广泛传播。

2014年,谷歌内部自动化配置系统里的一个小故障,让Gmail崩溃了大约半小时。该错误配置被发送到了在线服务上,导致用户日期请求被无视,相关服务接连出错。

经验教训在于,配置自动化并不等同于配置管理。自动化仅确保所做修改会被推送到所有系统上。

【本文是专栏作者“”李少鹏“”的原创文章,转载请通过安全牛(微信公众号id:gooann-sectv)获取授权】

戳这里,看该作者更多好文

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/125431.html<

(0)
运维的头像运维
上一篇2025-02-23 18:08
下一篇 2025-02-23 18:10

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注