当前位置：首页 > news >正文

使用Kubernetes实现零停机部署

news 2025/8/25 11:19:03

#作者：曹付江

文章目录

前言
1. 滚动更新策略：基础知识（和陷阱）
2. 准备就绪探测器：准备就绪前不要服务
3. PodDisruptionBudgets：防止自愿驱逐
4. 优雅关机：不要在请求中中断
5. 将它们组合在一起：零停机蓝图
6.结论

前言

深入了解就绪探针、PodDisruptionBudgets 和滚动更新，确保您的部署顺利、可控，并且不会导致应用程序宕机。

本文将分析如何使用 readinessProbes、preStop、termininationGracePeriodSeconds、rollingUpdate 策略和 PodDisruptionBudgets 在 Kubernetes 上实现零宕机部署。附带的 YAML 示例可根据实际使用情况进行修改。
为什么“滚动更新 ”并不总是安全的：Kubernetes 以其滚动更新而闻名，应用一个新版本，pod 就会被逐个替换。理论上，这应该意味着零停机时间。但实际上呢？宕机还是会发生。

如果您的应用程序启动缓慢，在部分负载下出现故障，或者不能干净利落地关闭，您的用户就会感觉到。滚动更新并非灵丹妙药。如果没有正确的保障措施，Kubernetes 会将流量导向不健康的 pod、一次性杀死过多 pod 或在最糟糕的时候允许中断。

本篇文章介绍如何利用三个功能强大（但经常被误解）的工具，深入探讨真正零停机
部署的机制：

就绪探测器
PodDisruption 预算
滚动更新策略

1. 滚动更新策略：基础知识（和陷阱）

默认情况下，Kubernetes 会使用 RollingUpdate 策略用新的 pod 替换旧的 pod。具体如下

strategy:type: RollingUpdaterollingUpdate:maxSurge: 1maxUnavailable: 1

这意味着Kubernetes 会在更新过程中额外启动 1 个 pod（maxSurge）在推出过程中，每次会关闭 1 个 pod（maxUnavailable）
问题所在Kubernetes 默认认为 pod 已 “就绪”，除非您另有指示。因此，它可能会提前开始将流量路由到您的 pod：

应用程序在某个端口上监听
数据库连接已建立
缓存预热

2. 准备就绪探测器：准备就绪前不要服务

准备就绪探测器告诉 Kubernetes：“先不要向这里发送流量”。这是部署工具包中最简单却最强大的工具之一。
下面是一个例子：

readinessProbe:httpGet:path: /healthzport: 8080initialDelaySeconds: 5periodSeconds: 10failureThreshold: 3

该配置每 10 秒检查一次 /healthz。如果它连续失败 3 次，Kubernetes 就会停止路由流量到 pod。

最佳实践：

将就绪状态与实际应用就绪状态挂钩：数据库连接、缓存、依赖关系。
除非应用程序真的准备就绪，否则不要只返回 200 OK。
在不同环境中使用相同的 /healthz 端点以保持一致性。

3. PodDisruptionBudgets：防止自愿驱逐

PodDisruptionBudget (PDB) 可确保在自愿中断期间（如节点耗尽或滚动部署）有最低数量的 pod 可用。

apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:name: my-app-pdb
spec:minAvailable: 2selector:matchLabels:app: my-app

该配置每 10 秒检查一次 /healthz。如果它连续失败 3 次，Kubernetes 就会停止路由流量到 pod。

该 PDB 保证至少有 2 个 pod 始终可用。如果可用的 pod 较少，Kubernetes 会延迟中断。为何重要：如果没有 PDB，节点耗尽可能会一次性驱逐所有 pod。再加上糟糕的就绪状态探测，就会导致宕机。

4. 优雅关机：不要在请求中中断

当 Kubernetes 决定停止一个 pod 时，它会发送 SIGTERM 信号
等待终止时间（termininationGracePeriodSeconds）如果应用程序没有及时退出，则发送 SIGKILL 信号，您可以添加一个 preStop 钩子来延迟关闭，直到处理完飞行中的请求：

lifecycle:，preStop:exec:command: ["sh", "-c", "sleep 10"]
terminationGracePeriodSeconds: 15

Kubernetes 发送 SIGTERM → 开始 15 秒倒计时，preStop 休眠 10 秒，在 Kubernetes 发送 SIGKILL 之前，应用程序现在还有 5 秒钟时间优雅关闭，替换休眠以耗尽连接、耗尽飞行中请求并清理。

5. 将它们组合在一起：零停机蓝图

让我们将所有内容整合到一个经过实战检验的部署策略中，在不影响推出安全性的前提下优先考虑可用性。

strategy:type: RollingUpdaterollingUpdate:maxSurge: 1maxUnavailable: 0readinessProbe:httpGet:path: /healthzport: 8080initialDelaySeconds: 5periodSeconds: 10lifecycle:preStop:exec:command: ["sh", "-c", "sleep 10"]
terminationGracePeriodSeconds: 30
添加一个 PodDisruptionBudget:
apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:name: my-app-pdb
spec:minAvailable: 2selector:matchLabels:app: my-app

逐步说明：
•maxSurge：1：推出期间只创建一个额外的 pod，允许新版本在不影响当前流量的情况下启动。
•maxUnavailable： 0：确保在新的 pod 完全启动和就绪之前，不会移除任何 pod，从而保证零停机时间。
•readinessProbe：充当看门人。只有当 pod 通过健康检查时，它才会开始接收流量，从而保护用户免受半初始化容器的影响。
•preStop + terminationGracePeriodSeconds：关闭时，每个 pod 会获得 30 秒的缓冲时间。preStop 钩子会在这 30 秒宽限期内引入一个延迟（睡眠 10 秒），以允许：
•完成飞行中的请求
•负载平衡器从容脱离
•必要时执行清理任务
•PodDisruptionBudget：通过确保至少 2 个 pod 始终处于就绪状态，在节点耗尽、群集自动缩放和手动驱逐期间确保可用性。
为何有效，这种配置实现了平衡：
•平滑推出（滚动更新，而不是一次性更新）
•可预测的行为（限制浪涌和中断）
•零未处理流量损失（得益于就绪探测器+预停止钩子）
•保证最低可用性（PDB 可防止意外中断）
•如果你的目标是在部署过程中实现零用户停机时间，即使节点正在回收、自动扩展或更新，你也希望在生产中采用这种设置。

6.结论

零停机时间并不只是巧妙的配置，而是要为 Kubernetes 完成其工作安排合适的条件。通过分层
•准备就绪探测器，发出真正准备就绪的信号。
•PodDisruptionBudgets 可避免有风险的中断。
•经过深思熟虑的激增/不可用滚动策略。
•生命周期钩子，实现优雅停机。
…您可以自信地说，您的推出不会导致应用程序宕机。

查看全文

http://www.xdnf.cn/news/430507.html