通过循环就可以搞垮服务器

Hello 大家好,我是阿粉,工作这么多年虽然经历过风风雨雨,但是每次线上发布版本的时候都是一场硬战,这不最近发布了一个版本,一不小心写了个 bug,差点造成了生产事故,幸好运维老大发现及时。

背景

事情是这样的,上周的一个早上阿粉高高兴兴的上班,刚到座位上早饭都还没来得及吃,就收到一条企业微信,是运维老大发来的,说有个服务 A 的 nginx 日志暴增。从平时的每天 133M 一下子暴增到 29G,看到这里突然想起来前一天刚好发过版本,一下子早餐也吃不下了,赶紧拿着电脑跑到运维那边排查问题。

首先找到对应服务 A 的 nginx 日志,通过命令 tail -f xxx.log 查看日志数据,发现日志里面输出最多的是对一个获取配置信息的接口的调用。这个接口是一个很简单的接口,就是加载数据库的数据存入缓存,然后对外提供接口访问,本身不存在业务逻辑。确定了接口以后,通过 nginx 日志看到请求都是来自一个核心的服务 B。

到这里基本上可以断定是服务 B 的逻辑有问题了,问题的方向已经确定下来了。定位了一下在服务 B 中调用了该接口的地方,总共有两处,一处是每五分钟调用一次,进行内存缓存,这块的逻辑是一直都有的,不会有问题;另一处是一个自定义的普罗米修斯的指标采集,普罗米修斯每 15 秒会进行一次数据的采集,这么一想那问题肯定是出在这里了。

看了一下逻辑,这块的代码是做了一个自定义的指标采集,用于在 Grafana 上面采集相应的数据,刚好生产上有 Prometheus 每 15 秒 Pull 一次数据,再加上生产环境的数据量较大,这段代码里面调用接口的逻辑写在了一个循环里面,从而导致了,每 15 秒会触发一次循环,每次循环的数据量很大并且每次都调用接口,并且服务 B 还是多实例部署,导致接口的调用次数暴增,从而引发了此次”血案“。

问题定位出来了,解决就比较简单了,将接口的调用从循环体内迁移到外面,方案做了一些变动,改完过后合并了一下代码,打了一个 tag,升级了其中一台服务器进行观察,发布完过后,整个接口调用的次数就下降了,观察了一会没有异常就全网了。

复盘

事后对这个问题做了一下复盘,事故的本身没有引起业务的异常,但是还好发现的早,不然每天产生如此大的日志量迟早会占满磁盘空间出事情。再深度复查一下发现接入普罗米修斯的这块自定义指标其实并没有实际使用价值,这块的逻辑前前后后改动过好多版本,但是没有一个最终的版本,不知道在哪个版本将代码提交上去了。这也体现出我们的版本规划是有问题的,很多需求前前后后经常变动和插入,没有严格的按照版本执行也是导致此次问题的一个重要原因。

这里也提醒一下大家一定要严格按照版本迭代进行开发和发布。不然哪天踩了这样的坑就比较尴尬了。

工作中难免会出现失误,但是有些失误能犯有些不能犯,每个程序员都会写出 bug,写出 bug 问题不大,但是能不能及时解决就很关键了。真正影响到线上业务的 bug,时间就是金钱,多消耗一分钟就损失一分钟的钱,有的时候一分钟的钱没多少,有的时候一分钟的钱足以倒闭一家公司。

所以我们每个程序员都应该要敬畏线上。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/215513.html<

(0)
运维的头像运维
上一篇2025-04-12 07:10
下一篇 2025-04-12 07:11

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注