当前位置: 首页 > web >正文

Kubernetes 节点 Not Ready 时 Pod 驱逐机制深度解析(上)

#作者:邓伟

文章目录

  • 一、核心原理:多层级驱逐体系与协同机制
  • 二、实战:多维度故障模拟与驱逐验证

一、核心原理:多层级驱逐体系与协同机制

  1. Node 状态与 Condition 演进
    Kubernetes 通过NodeCondition描述节点状态,核心状态包括:
  • Ready:节点是否准备好接收 Pod(True/False/Unknown)
  • OutOfDisk:节点磁盘是否不足
  • MemoryPressure:节点内存是否存在压力
  • DiskPressure:节点磁盘 IO 是否存在压力
    当节点因网络分区、Kubelet 进程崩溃等原因无法正常汇报状态时,Ready状态会变为Unknown;当节点资源持续不足或主动标记为不可用,状态会变为False。这两种情况都会触发节点NotReady的驱逐逻辑。
  1. 多层级驱逐体系
    Kubernetes 通过Taint/Toleration、资源压力驱逐、API 主动驱逐构建了立体化的驱逐体系:
    (1)Taint/Toleration 机制(控制平面主导)
  • Taint:附加在节点上的属性(如node.kubernetes.io/not-ready:NoExecute),表示节点不希望运行某些 Pod
  • Toleration:定义在 Pod 上的规则,表示 Pod 可以容忍某个 Taint
    当节点NotReady时,Kubernetes 会自动为节点添加NoExecute类型的 Taint:
# 节点NotReady时自动添加的Taint
- key: node.kubernetes.io/not-readyvalue: ""effect: NoExecute

NoExecute效应的 Taint 会使不具备对应 Toleration 的 Pod 被立即驱逐,而具备 Toleration 的 Pod 可根据配置决定是否驱逐或延迟驱逐。

(2)资源压力驱逐(Kubelet 本地执行)
Kubelet 通过监控节点资源使用情况,当内存、磁盘等不可压缩资源达到阈值时,会主动驱逐 Pod 以释放资源。核心机制包括:

  • 软驱逐:资源使用超过阈值后持续观察宽限期(如–eviction-soft-grace-period),若未恢复则触发驱逐
  • 硬驱逐:资源使用直接超过临界值时立即驱逐(如内存 < 250Mi)
  • 驱逐信号:支持memory.available、nodefs.available等 8 种资源指标
    (3)API 主动驱逐(人工干预或自动化策略)
    通过kubectl drain或直接调用 Eviction API,可强制驱逐节点上的 Pod,同时遵循PodDisruptionBudget(PDB)等策略保障服务可用性。
  1. 关键控制器协同
    (1)NodeController(控制平面)
  • 负责监控所有节点状态,当检测到节点NotReady时,向节点添加node.kubernetes.io/not-ready:NoExecute Taint
  • 支持通过–node-monitor-grace-period参数配置状态检测延迟(默认 40 秒)
    (2)TaintManager(控制平面)
  • 作为kube-controller-manager的子组件,默认启用(–enable-taint-manager=true)
  • 周期性检查节点 Taint 与 Pod Toleration 的匹配关系,对不满足条件的 Pod 发起驱逐
  • 驱逐逻辑遵循NoExecute规则:若 Pod 无对应 Toleration,立即驱逐;若有 Toleration 但指定tolerationSeconds,则延迟驱逐
    (3)Kubelet(节点代理)
  • 执行本地资源压力驱逐,优先回收镜像、日志等本地资源
  • 处理 API 发起的驱逐请求,执行 Pod 优雅终止

二、实战:多维度故障模拟与驱逐验证

  1. 准备测试环境
# 创建测试Namespace
kubectl create ns test-zone
# 部署无状态应用(无NotReady Toleration)
kubectl run nginx-test --image=nginx --replicas=3 -n test-zone
# 查看初始Pod分布
kubectl get pods -n test-zone -o wide
  1. 模拟节点 NotReady(三种方式)

方式 1:手动标记节点不可用

# 标记节点为不可调度(可选,避免新Pod调度)
kubectl cordon node01
# 模拟节点NotReady(修改NodeCondition)
kubectl patch node node01 -p '{"spec":{"unschedulable":true}}'
# 或通过API直接修改Condition(更底层)
cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: Node
metadata:name: node01
spec:conditions:- type: Readystatus: "False"reason: NodeNotReadymessage: "Network partition"
EOF

方式 2:停止 Kubelet 服务(真实故障模拟)

# 登录节点,停止Kubelet
systemctl stop kubelet
# 等待节点状态变为Unknown(约40秒,由--node-monitor-grace-period控制)
kubectl get nodes -w

方式 3:资源压力触发驱逐(Kubelet 本地驱逐)

# 模拟内存压力(需root权限)
stress -m 1 --vm-bytes 3G
# 观察驱逐事件
kubectl describe node node01 | grep -A 5 Conditions
  1. 观察驱逐过程
    (1)节点 Taint 变化
kubectl describe node node01 | grep -A 5 Taints
# 输出应包含自动添加的NotReady Taint
Taints:             node.kubernetes.io/not-ready:NoExecute

(2)Pod 驱逐日志

# 查看Pod事件
kubectl get pods -n test-zone -o wide
# 状态变为Terminating,Events显示被TaintManager驱逐
kubectl describe pod nginx-test-xxx -n test-zone | grep -i reason
# 包含"evicted by TaintManager"相关记录

(3)驱逐宽限期(Toleration 配置)
若 Pod 定义了NotReady Toleration 并设置tolerationSeconds:

tolerations:
- key: "node.kubernetes.io/not-ready"operator: "Exists"effect: "NoExecute"tolerationSeconds: 300  # 5分钟后驱逐

则 Pod 会在宽限期后被驱逐,可通过kubectl get pods -w观察延迟驱逐现象。

  1. Node Problem Detector(NPD)集成实战
    部署Node Problem Detector,可自动检测节点硬件故障、内核错误等,并触发对应的 Taint 添加:
# 部署NPD
kubectl apply -f https://raw.githubusercontent.com/kubernetes/node-problem-detector/master/config/node-problem-detector.yaml
# 验证NPD运行
kubectl get pods -n kube-system -l app=node-problem-detector
http://www.xdnf.cn/news/1844.html

相关文章:

  • Web漏洞--XSS之订单系统和Shell箱子
  • Android APP 热修复原理
  • ArrayUtils:数组操作的“变形金刚“——让你的数组七十二变
  • python实现简单的UI交互
  • RT Thread 发生异常时打印输出cpu寄存器信息和栈数据
  • C++11介绍
  • 【阿里云大模型高级工程师ACP习题集】2.5 优化RAG应用提升问答准确度(⭐️⭐️⭐️ 重点章节!!!)
  • C++面试复习日记(8)2025.4.25,malloc,free和new,delete的区别
  • Maven基础、HTTP协议、请求响应(Web后端笔记第一期)
  • 策略模式(Strategy Pattern)详解
  • 深度学习--自然语言处理统计语言与神经语言模型
  • 打造高功率、高电流和高可靠性电路板的厚铜PCB生产
  • 基于STM32的温室环境智能调控系统仿真(仿真+代码)
  • 统计术语学习
  • 鸿蒙应用开发证书考试的一点想法
  • 大量化平台也有坑?khQuant回测横评第二弹,一次“排雷”实录【AI量化第28篇】
  • GitHub每日最火火火项目(4.25)
  • 【沉浸式求职学习day25】【部分网络编程知识分享】【基础概念以及简单代码】
  • 防火墙原理与应用总结
  • re.compile(pattern) 是什么
  • day37图像处理OpenCV
  • [贪心_7] 最优除法 | 跳跃游戏 II | 加油站
  • vue滑块组件设计与实现
  • 高防IP+CDN组合:电商大促的“双保险”防护方案
  • Spine 动画教程:皮肤制作
  • 浅析锁的应用与场景
  • CSS 入门全解析
  • 实验3 函数与代码复用
  • 【Java学习日记26】:方法的重载
  • 通道降维方式