一个小需求,自动重启k8s集群中日志不刷新的POD

一个小需求,自动重启k8s集群中日志不刷新的POD

作者:DevOps笔记 2020-09-02 13:51:12

云计算 日常工作中,所有项目都不是完美的,笔者就经常遇到这种情况,pod状态是running,但是程序却没有响应。发生这种情况的原因有很多种,有可能是因为k8s健康检查的原因,比如使用ps检查进程;或者是程序内部死循环,但是不退出;再或者网络闪断,程序无法重连等等。

k8s

需求

日常工作中,所有项目都不是完美的,笔者就经常遇到这种情况,pod状态是running,但是程序却没有响应。发生这种情况的原因有很多种,有可能是因为k8s健康检查的原因,比如使用ps检查进程;或者是程序内部死循环,但是不退出;再或者网络闪断,程序无法重连等等。

无论什么原因,都会有解决办法,但是优化需要时间,在未完全解决之前,问题不能不解决,于是想到了一个临时方案,因为笔者公司项目日志是直接打印在stdout的,发生了程序无响应的情况,比较简单的一个办法是判断日志输出的时间。基于此,可以简单写一个小脚本,发现日志长时间不输出的时候,重启pod。

思路

使用kubectl logs命令查看最后一条日志输出的时间戳,与服务器时间对比,差值大于阈值,则重启相应POD。当然,这只是一个简单的思路,并不适用于大部分场景,但是适合笔者公司,因为核心项目请求量很大,但凡是超过1分钟日志不刷新,基本可以断定100%出现问题了。

此思路其实也是抛砖引玉,希望能给大家一些灵感,如果有什么更好的办法,也可以与笔者沟通交流。

简单实现

shell比较简单,直接与服务器交互也比较友好,就是用shell来写吧。

  1. #!/bin/sh 
  2. # 获取当前UTC时间utc_now=`date -u` 
  3. # 将时间转换为timestamptimestamp_now=`date -d "$utc_now" +%s` 
  4. function restart_pod() { 
  5.     for i in `kubectl get pod -n iot|grep PODNAME|awk '{print $1}'`;do 
  6.         for time in `kubectl logs  --tail=1 --timestamps $i -n iot | awk '{print $1}'`;do 
  7.             timestamp_pod=`date -d "$time" +%s` 
  8.             delay=$(($timestamp_now-$timestamp_pod))            echo $i:$delay            if [ "$delay" -ge "30" ];then 
  9.                 echo "Pod $i 30S内没有最新日志产生,重启pod!" 
  10.                 echo $i                kubectl delete pod $i -n iot --force --grace-period=0 
  11.                 curlwxFunc "Pod $i 30S内没有最新日志产生,重启pod!(生产环境)" 
  12.             fi        done    done}function curlwxFunc() { 
  13.     JSON='{ 
  14.             "msgtype""text"
  15.             "text": { 
  16.                 "content""'$1'" 
  17.             } 
  18.         }' 
  19.     curl 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxx' \ 
  20.     -H 'Content-Type:application/json' \ 
  21.     -d "${JSON}" 
  22. }restart_pod 

脚本很简单,先查询pod,然后看pod最后一条日志时间,与服务器时间对比,延迟超过30s就重启pod,并且调用企业微信接口发一条通知。

后记

此方法也是治标不治本,治标还需要从源头解决,不过需要时间,再没有解决之前,先用这个小脚本抗一抗吧。也欢迎大家拍砖。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/246831.html<

(0)
运维的头像运维
上一篇2025-04-26 20:15
下一篇 2025-04-26 20:16

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注