Kubernetes组件问题排查的一些方法

Kubernetes组件问题排查的一些方法

作者: 乔克 2021-04-19 17:25:08

云计算 Kubernetes的基础组件就像一栋房子的地基,它们的重要性不言而喻。作为Kubernetes集群的维护者,经常会遇到组件的问题,那平时是怎么去定位解决的呢?

[[394145]]

本文转载自微信公众号「运维开发故事」,作者 乔克 。转载本文请联系运维开发故事公众号。

Kubernetes的基础组件就像一栋房子的地基,它们的重要性不言而喻。作为Kubernetes集群的维护者,经常会遇到组件的问题,那平时是怎么去定位解决的呢?

这里简要分析一下我的排查思路。

  • 通过集群的状态,找到故障的节点或者组件
  • 分析组件的日志
  • 使用pprof分析组件的具体性能

确定范围

Kubernetes的基础组件不多,而且部署也非常简单,所以在定义范围的时候还是很容易的,比如我们在使用kubectl get nodes的时候,如果某个节点的状态是NotReady,我们脑海中是不是会出现两种可能?

(1)节点的kubelet组件有问题

(2)节点的网络组件有问题

这样一来,大体方向已经确定了,然后就是做排除法了。

这里为何说是排除法?因为在解决问题的途中,我们通常会采用先假设再验证的方式进行,先把所以可能的因素列出来,然后一个一个的去验证去排除,直到解决问题。

分析日志

日志分析是故障排查最直接的方式,大部分问题都能从日志里体现出来,Kubernetes的组件日志查看方式通常有两种:

  • 通过systemd启动的服务,使用journalctl -l -u xxxx
  • 使用静态pod启动的服务,使用kubectl logs -n kube-system $PODNAME –tail 100

当然,很多时候不仅仅是分析它本身的问题,我们还会关注周边的问题,比如基础设施的CPU、内存、IO等情况,这样进行综合考虑来找出问题。

性能分析

为什么把性能分析放到最后呢?

对于大部分人来说,并不擅长,也不喜欢分析组件的性能。第一是时间比较长,第二是要对各个性能指标有一定的了解,第三是学习成本比较大。

众所周知,Kubernetes的版本迭代比较快,基本一年会发2-3个版本,如此快的迭代速度,不排除一些版本中存在BUG,存在一些性能问题。所以在实在没招的情况下,可以尝试对其组件的性能进行分析。

Kubernetes是使用Golang开发,而Golang的pprof是性能分析的利器,提供交互式界面和UI图形化,比较直观,可以很方便的找出问题。除此之外,还可以使用go-torch将profile数据生成火焰图,这样会更直观。

Kubernetes的组件都可以使用pprof进行性能分析,界面在host:port/debug/pprof/。

pprof的常用方式

使用交互式命令

查看堆栈调用信息

  1. go tool pprof http://localhost:8001/debug/pprof/heap 

查看 30 秒内的 CPU 信息

  1. go tool pprof http://localhost:8001/debug/pprof/profile?seconds=30 

查看 goroutine 阻塞

  1. go tool pprof http://localhost:8001/debug/pprof/block 

收集 5 秒内的执行路径

  1. go tool pprof http://localhost:8001/debug/pprof/trace?seconds=5 

互斥持有者的堆栈跟踪

  1. go tool pprof http://localhost:8001/debug/pprof/mutex 

通过UI界面

UI分析工具使用起来相对比较麻烦,我们需要先导出文件,然后再使用go tool工具起服务进行分析。

比如我们导出kube-scheduler的堆栈信息。

  1. curl -sK -v http://localhost:10251/debug/pprof/heap > heap.out 

然后使用go tool工具起一个服务,如下:

  1. go tool pprof -http=0.0.0.0:8989 heap.out 

然后就可以在浏览器上看到具体的堆栈信息图了。

注意,这里需要在服务端安装graphviz组件,各种操作系统的安装方式见[3]。

UI界面主要的菜单以及其功能简要介绍如下:

  • VIEW:查看模式
    • Top:从高到底排序查看
    • Graph:默认的模式,以关系图形式查看
    • Flame Graph:以火焰图形式查看
    • Peek:排序查看,展示的信息更多
    • Source:排序查看,带源码标注
    • Disassemble:现实所有总量
  • SAMPLE:为VIEW提供查看模式
    • alloc_objects:已分配的对象总量(不管是否已释放
    • alloc_space:已分配的内存总量(不管是否已释放)
    • inuse_objects:已分配但尚未释放的对象数量
    • inuse_sapce:已分配但尚未释放的内存数量
    • REFINE:提供筛选能力

上面简单介绍了pprof的基本使用方法,下面就Kubernetes的各个组件进行简单的分析,这里只就CPU信息进 行获取以及展示。

注意:由于版本原因,有的版本默认开启了pprof,有的版本则没有,如果没有开启的,需要自行去开启,参数基本都是profiling: true,具体的信息可以到官网进行查看[4]。

分析kube-apiserver

(1)使用kubectl proxy启动一个代理

  1. kubectl proxy 

(2)另起一个终端,获取CPU信息

  1. curl -sK -v http://localhost:8001/debug/pprof/profile >apiserver-cpu.out 

(3)使用go tool工具启动服务

  1. go tool pprof -http=0.0.0.0:8989 apiserver-cpu.out 

(4)在浏览器上进行查看

分析kube-scheduler

(1)获取CPU的信息

  1. curl -sK -v  http://localhost:10251/debug/pprof/profile >scheduler-cpu.out 

(2)使用go tool工具启动服务

  1. go tool pprof -http=0.0.0.0:8989 scheduler-cpu.out 

(3)在浏览器进行查看

分析kube-controller-manager

(1)获取CPU的信息

  1. curl -sK -v  http://localhost:10252/debug/pprof/profile >controller-cpu.out 

(2)使用go tool工具启动服务

  1. go tool pprof -http=0.0.0.0:8989 controller-cpu.out 

(3)在浏览器进行查看

分析kubelet

(1)使用kubectl proxy启动一个代理

  1. kubectl proxy 

(2)另起一个终端,获取CPU信息

  1. curl -sK -v http://127.0.0.1:8001/api/v1/nodes/k8s-node04-138/proxy/debug/pprof/profile >kubelet-cpu.out 

(3)使用go tool工具启动服务

  1. go tool pprof -http=0.0.0.0:8989 kubelet-cpu.out 

(4)在浏览器上进行查看

能够抓到具体的性能数据才是第一步,后续的具体分析才会帮助我们找到问题。

文档

[1] https://github.com/google/pprof

[2] https://github.com/uber-archive/go-torch

[3] http://www.graphviz.org/download/#linux

[4] https://kubernetes.io/zh/docs/reference/command-line-tools-reference/kube-apiserver/

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/246455.html<

(0)
运维的头像运维
上一篇2025-04-26 16:00
下一篇 2025-04-26 16:02

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注