使用KubeNurse进行集群网络监控

[[389818]]

前言

在Kubernetes中,网络是通过第三方网络插件来提供,这些三方插件本身的实现就比较复杂,以至于在排查网络问题时常常碰壁。那么有没有什么方式来监控集群中所有的网络连接呢?

kubenurse就是这样一个项目,它通过监视集群中的所有网络连接,并提供监控指标供Prometheus采集。

Kubenurse

kubenurse的部署非常简单,使用Daemonset形式部署到集群节点上,Yaml文件在项目的example目录下。

部署成功后,每5秒钟会对/alive发一次检查请求,然后其内部会运行各种方法全方位对集群网络进行检测,为了防止过多的网络流量,会对检查结果缓存3秒。其检测机制如下:

从上图可以看出,kubenurse会对ingress、dns、apiserver、kube-proxy进行网络探测。

所有的检查都会创建公开的指标,这些指标可用于检测:

  • SDN网络延迟以及错误
  • Kubelet之间的网络延迟以及错误
  • Pod与apiserver通信问题
  • Ingress往返网络延迟以及错误
  • Service往返网络延迟以及错误(kube-proxy)
  • Kube-apiserver问题
  • Kube-dns(CoreDns)错误
  • 外部DNS解析错误(ingress url解析)

然后这些数据主要通过两个监控指标来体现:

  • kubenurse_errors_total:按错误类型划分的错误计数器
  • kubenurse_request_duration:按类型划分的请求时间分布

这些指标都是通过Type类型进行标识,对应几种不同的检测目标:

  • api_server_direct:从节点直接检测 API Server
  • api_server_dns:从节点通过 DNS 检测 API Server
  • me_ingress:通过 Ingress 检测本服务 Service
  • me_service:使用 Service 检测本服务 Service
  • path_$KUBELET_HOSTNAME:节点之间的互相检测

然后这些指标分别按P50,P90,P99分位数进行划分,就可以根据不同的情况来确认集群网络状况了。

安装部署

这里直接使用官方的部署文件进行部署。不过需要更改几个地方。(1)首先将代码clone到本地

  1. git clone https://github.com/postfinance/kubenurse.git 

(2)进入example目录,修改ingress.yaml配置,主要是添加域名,如下。

  1. --- 
  2. apiVersion: extensions/v1beta1 
  3. kind: Ingress 
  4. metadata: 
  5.   annotations: 
  6.     kubernetes.io/ingress.class: nginx 
  7.   name: kubenurse 
  8.   namespace: kube-system 
  9. spec: 
  10.   rules: 
  11.   - host: kubenurse-test.coolops.cn 
  12.     http: 
  13.       paths: 
  14.       - backend: 
  15.           serviceName: kubenurse 
  16.           servicePort: 8080 

(2)更新daemonset.yaml配置,主要是更改ingress的入口域名,如下。

  1. --- 
  2. apiVersion: apps/v1 
  3. kind: DaemonSet 
  4. metadata: 
  5.   labels: 
  6.     app: kubenurse 
  7.   name: kubenurse 
  8.   namespace: kube-system 
  9. spec: 
  10.   selector: 
  11.     matchLabels: 
  12.       app: kubenurse 
  13.   template: 
  14.     metadata: 
  15.       labels: 
  16.         app: kubenurse 
  17.       annotations: 
  18.         prometheus.io/path: "/metrics" 
  19.         prometheus.io/port: "8080" 
  20.         prometheus.io/scheme: "http" 
  21.         prometheus.io/scrape: "true" 
  22.     spec: 
  23.       serviceAccountName: nurse 
  24.       containers: 
  25.       - name: kubenurse 
  26.         env: 
  27.         - name: KUBENURSE_INGRESS_URL 
  28.           value: kubenurse-test.coolops.cn      # 需要更改的地方 
  29.         - name: KUBENURSE_SERVICE_URL 
  30.           value: http://kubenurse.kube-system.svc.cluster.local:8080 
  31.         - name: KUBENURSE_NAMESPACE 
  32.           value: kube-system 
  33.         - name: KUBENURSE_NEIGHBOUR_FILTER 
  34.           value: "app=kubenurse" 
  35.         image: "postfinance/kubenurse:v1.2.0" 
  36.         ports: 
  37.         - containerPort: 8080 
  38.           protocol: TCP 
  39.       tolerations: 
  40.       - effect: NoSchedule 
  41.         key: node-role.kubernetes.io/master 
  42.         operator: Equal 
  43.       - effect: NoSchedule 
  44.         key: node-role.kubernetes.io/control-plane 
  45.         operator: Equal 

(4)新创建一个ServiceMonitor,用于获取指标数据,如下:

  1. apiVersion: monitoring.coreos.com/v1 
  2. kind: ServiceMonitor 
  3. metadata: 
  4.   name: kubenurse 
  5.   namespace: monitoring 
  6.   labels: 
  7.     k8s-app: kubenurse 
  8. spec: 
  9.   jobLabel: k8s-app 
  10.   endpoints: 
  11.   - port: "8080-8080"  
  12.     interval: 30s 
  13.     scheme: http 
  14.   selector: 
  15.     matchLabels: 
  16.      app: kubenurse 
  17.   namespaceSelector: 
  18.     matchNames: 
  19.     - kube-system 

(5)部署应用,在example目录下执行以下命令。

  1. kubectl apply -f . 

(6)等待所有应用变成running,如下。

  1. # kubectl get all -n kube-system -l app=kubenurse 
  2. NAME                  READY   STATUS    RESTARTS   AGE 
  3. pod/kubenurse-fznsw   1/1     Running   0          17h 
  4. pod/kubenurse-n52rq   1/1     Running   0          17h 
  5. pod/kubenurse-nwtl4   1/1     Running   0          17h 
  6. pod/kubenurse-xp92p   1/1     Running   0          17h 
  7. pod/kubenurse-z2ksz   1/1     Running   0          17h 
  8.  
  9. NAME                TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)    AGE 
  10. service/kubenurse   ClusterIP   10.96.229.244   <none>        8080/TCP   17h 
  11.  
  12. NAME                       DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE 
  13. daemonset.apps/kubenurse   5         5         5       5            5           <none>          17h 

(7)到prometheus上查看是否正常获取数据。

查看指标是否正常。

(8)这时候就可以在grafana上画图,展示监控数据了,如下。

参考文档

【1】https://github.com/postfinance/kubenurse

【2】https://github.com/postfinance/kubenurse/tree/master/examples

 

文章来源网络,作者:管理,如若转载,请注明出处:https://shuyeidc.com/wp/152438.html<

(0)
管理的头像管理
上一篇2025-03-14 00:24
下一篇 2025-03-14 00:25

相关推荐

  • 云服务器和云虚拟主机怎么选?云服务器和虚拟主机区别

    云服务器适合业务增长快、需弹性扩展的场景,而云虚拟主机适合预算有限、技术门槛低的小型静态网站或测试环境,二者核心区别在于资源独享性与运维复杂度,核心差异解析:从底层架构到使用体验很多人容易混淆这两者,觉得它们都是“买空间建站”,它们的底层逻辑完全不同,云服务器(ECS)就像是你租了一整栋别墅,水电网络独立,你想……

    2026-06-29
    0
  • 赣州智慧旅游招聘是真的吗?赣州旅游人才招聘信息

    中级岗位(3-5年经验)月薪范围通常在6000-10000元,这类岗位需要独立负责项目模块,如独立运营一个抖音账号,或维护一个景区小程序的功能迭代,具备成功案例的候选人议价能力较强,高级岗位(5年以上经验)月薪范围通常在10000-20000元,部分核心管理岗可达更高,这类人才需要具备战略规划能力,如制定整个景……

    2026-06-29
    0
  • 赣州智能物联网车位锁如何管理?智能车位锁管理系统多少钱

    赣州智能物联网车位锁管理的核心在于通过云端平台实现远程控锁、状态实时监控及自动计费,彻底解决传统车位“被占难管”与“找位难”的痛点,在赣州这样的城市,随着机动车保有量的持续增长,老旧小区、商业综合体以及私人固定车位的资源矛盾日益凸显,传统的机械地锁或简易遥控锁,不仅操作繁琐,更无法实现数据化管理,引入智能物联网……

    2026-06-29
    0
  • 赣州智能消防栓好用吗,智能消防栓多少钱一个

    赣州智能消防栓通过物联网技术实现实时监测与远程报警,能显著降低火灾响应时间并提升城市消防安全管理水平,是目前智慧城市建设中不可或缺的基础设施,赣州智能消防栓的核心价值与应用场景传统消防栓往往存在“看不见、摸不着、用不了”的痛点,在赣州这样地形复杂、老城区与新城区并存的区域,传统设施的管理难度极大,智能消防栓的出……

    2026-06-29
    0
  • 云服务器和物理机到底有啥区别?

    云服务器本质上是虚拟化资源池中的弹性实例,而传统物理服务器是独占的硬件实体,前者胜在弹性与运维便捷,后者强在物理隔离与性能稳定,具体选择取决于业务对成本、扩展性及安全合规的权衡,很多人初次接触服务器时,容易把“云服务器”和“传统物理服务器”混为一谈,觉得它们都是用来跑网站或存数据的盒子,这两者的底层逻辑完全不同……

    2026-06-29
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注