当前位置: 首页 > news >正文

GPU虚拟化

引言

现有如下环境(注意相关配置:只有一个k8s节点,且该节点上只有一张GPU卡):

// k8s版本
$ kubectl version
Client Version: version.Info{Major:"1", Minor:"22", GitVersion:"v1.22.7", GitCommit:"b56e432f2191419647a6a13b9f5867801850f969", GitTreeState:"clean", BuildDate:"2022-02-16T11:50:27Z", GoVersion:"go1.16.14", Compiler:"gc", Platform:"linux/amd64"}
Server Version: version.Info{Major:"1", Minor:"22", GitVersion:"v1.22.7", GitCommit:"b56e432f2191419647a6a13b9f5867801850f969", GitTreeState:"clean", BuildDate:"2022-02-16T11:43:55Z", GoVersion:"go1.16.14", Compiler:"gc", Platform:"linux/amd64"}// k8s节点信息
$ kubectl get node
NAME              STATUS   ROLES                  AGE    VERSION
desktop-72rd6ov   Ready    control-plane,master   419d   v1.22.7
$ kubectl get node desktop-72rd6ov -oyaml | grep nvidia.com -A 1 -B 6allocatable:cpu: "16"ephemeral-storage: "972991057538"hugepages-1Gi: "0"hugepages-2Mi: "0"memory: 16142536Kinvidia.com/gpu: "1"pods: "110"capacity:cpu: "16"ephemeral-storage: 1055762868Kihugepages-1Gi: "0"hugepages-2Mi: "0"memory: 16244936Kinvidia.com/gpu: "1"pods: "110"// nvidia k8s-device-plugin版本
// nvidia k8s-device-plugin使用默认配置运行
root@nvidia-device-plugin-daemonset-wtqrg:/# nvidia-device-plugin --version
NVIDIA Device Plugin version 42a0fa92
commit: 42a0fa92ce166592ab5702a1143ddecd891c8e5e// nvidia-container-toolkit版本
$ nvidia-container-toolkit --version
NVIDIA Container Runtime Hook version 1.17.4
commit: 9b69590c7428470a72f2ae05f826412976af1395// nvidia GPU及driver信息
$ nvidia-smi
Mon Jun  2 10:51:49 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.02              Driver Version: 560.94         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4060 Ti     On  |   00000000:01:00.0  On |                  N/A |
|  0%   42C    P8              8W /  165W |     690MiB /  16380MiB |      3%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------++-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A        25      G   /Xwayland                                   N/A      |
+-----------------------------------------------------------------------------------------+// cuda版本
$ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Tue_Oct_29_23:50:19_PDT_2024
Cuda compilation tools, release 12.6, V12.6.85
Build cuda_12.6.r12.6/compiler.35059454_0

在上述单节点的k8s环境中,我先用如下配置了使用GPU的yaml起一个pod:

# nginx-pod.yaml
apiVersion: v1
kind: Pod
metadata:name: gpu-pod-1
spec:restartPolicy: Nevercontainers:- name: nginximage: nginx:latestimagePullPolicy: IfNotPresentresources:limits:nvidia.com/gpu: 1securityContext:capabilities:add: ["SYS_ADMIN"]tolerations:- key: nvidia.com/gpuoperator: Existseffect: NoSchedule- effect: NoSchedulekey: node-role.kubernetes.io/masteroperator: Exists

可以看到pod正常运行:

$ kubectl apply -f nginx-pod.yaml
pod/gpu-pod-1 created
$ kubectl get pod -o wide
NAME        READY   STATUS    RESTARTS   AGE   IP             NODE              NOMINATED NODE   READINESS GATES
gpu-pod-1   1/1     Running   0          64s   10.244.0.221   desktop-72rd6ov   <none>           <none>
$ kubectl exec -ti gpu-pod-1 -- bash
root@gpu-pod-1:/# nvidia-smi --version
NVIDIA-SMI version  : 560.35.02
NVML version        : 560.35
DRIVER version      : 560.94
CUDA Version        : 12.6

如果再用上述yaml起一个gpu-pod-2,会发现pod一直Pending,因为节点上已经没有剩余可用的GPU资源可用:

$ kubectl apply -f nginx-pod.yaml
pod/gpu-pod-2 created
$ kubectl get pod -o wide
NAME        READY   STATUS    RESTARTS   AGE     IP             NODE              NOMINATED NODE   READINESS GATES
gpu-pod-1   1/1     Running   0          13m     10.244.0.221   desktop-72rd6ov   <none>           <none>
gpu-pod-2   0/1     Pending   0          4m20s   <none>         <none>            <none>           <none>

但是试想一种场景:我有多个任务需要使用GPU资源计算,但是GPU资源数量明显少于任务数量,而且某些任务运行过程中也并不是一直会使用GPU资源。为了充分利用GPU资源,我们希望任务能公用这些GPU资源,这也就引出了本文的主题:GPU虚拟化。

一、GPU虚拟化技术概览

1.1 为什么需要GPU虚拟化?

1.1.1 物理GPU的固有特点

  • 资源利用率低下:传统GPU独占模式下,AI推理/轻量计算任务仅占用10%-30%算力,大量资源闲置
  • 成本与扩展性瓶颈:企业需为每个用户/应用单独采购GPU硬件(如设计师工作站);云服务商无法通过共享降低租户算力成本
  • 多租户隔离缺失:多个任务竞争同一GPU导致性能抖动(如显存溢出影响邻位应用)

1.2 两大核心模式对比

1.2.1 一虚多(1 GPU → N个实例)

本质:单物理GPU分割为多个逻辑虚拟GPU

实现原理:

  • 时分复用(Time-Slicing):GPU时间片轮转调度(如每10ms切换任务),代表方案:NVIDIA vGPU、开源GPU-PV,适用场景:图形渲染、轻量计算
  • 空间分区(Spatial Partitioning):物理切割GPU计算单元/显存(如NVIDIA MIG),适用场景:AI推理、高隔离性任务

架构示意图:

Physical GPU → Hypervisor层(vGPU Manager)→ 虚拟GPU实例(vGPU1/vGPU2/...) → VM/Container

1.2.2 多虚一(N GPU → 1实例)

本质:聚合多个GPU资源服务单个计算密集型应用

实现原理:

  • 设备级聚合:通过NVLink互联多卡(如DGX服务器的8-GPU Cube Mesh)
  • 节点级聚合:GPUDirect RDMA跨节点通信(InfiniBand网络)

典型架构:

App (e.g. LLM训练) → 聚合框架 (NCCL/DDP) → GPU Pool (本地多卡/跨节点集群)

1.2.3 关键特性对比表

维度一虚多 (1→N)多虚一 (N→1)
核心目标资源分片共享算力聚合加速
隔离性中-高(MIG为物理隔离)无(所有资源协同工作)
延迟敏感性低(毫秒级调度)高(微秒级通信延迟影响显著)
典型硬件Tesla T4/vWS, A100 (MIG)A100/H100 + NVLink Switch
适用场景云游戏、VDI、AI推理大模型训练、科学计算
代表技术NVIDIA vGPU, MIG, GPU-PVNVLink, NCCL, GPUDirect RDMA

1.2.4 技术演进里程碑

  • 2013:NVIDIA GRID K1首发vGPU技术(针对虚拟桌面)
  • 2020:安培架构推出MIG(首个硬件级多实例GPU)
  • 2022:Hopper架构支持机密计算vGPU(加密显存保护数据)
  • 2023:vGPU 2.0支持动态资源分配(运行时调整vGPU显存/算力)

二、一虚多(1 GPU → N个实例)技术解析

2.1 实现原理

2.1.1 硬件辅助虚拟化(NVIDIA vGPU 技术栈):

在这里插入图片描述

核心组件:

  • Hypervisor驱动与调度器:GPU内部的任务队列管理单元(如Ampere架构的GSP调度引擎)
  • vGPU Manager:驻留在Hypervisor的驱动层,负责GPU资源切分与调度
  • Guest驱动:虚拟机/容器内识别虚拟GPU的标准驱动(与物理驱动兼容)

2.1.2 资源分割的两大范式

类型时分复用(Time-Slicing)空间分区(MIG)
原理GPU时间片轮转服务多个任务物理切割GPU为独立计算单元
隔离级别软件级(易受干扰)硬件级(显存/缓存/计算单元隔离)
调度粒度毫秒级(通常10-50ms)永久性分区(需重启生效)
代表技术NVIDIA vGPU, GPU-PVNVIDIA MIG(仅安培/霍珀架构)
适用场景图形渲染、轻量级AI推理高SLA要求的AI推理/科学计算

2.2 主流方案简介

2.2.1 NVIDIA vGPU/vWS(企业级方案)

架构流程:

GPU硬件分片 → 虚拟GPU(vGPU) → 虚拟机

关键特性:

  • Profile配置表(以NVIDIA A100 40GB为例)
Profile名称显存CUDA核心最大实例数
A100-1B1GB1/77
A100-2B2GB1/77
A100-3B3GB1/74
A100-4B4GB1/73
A100-7B7GB1/71
  • 许可证机制:

需连接nvidia-licence-server(默认端口7070)

许可证类型:vWS(图形工作站)、vCS(计算加速)、vPC(基础办公)

2.2.2 NVIDIA MIG(Multi-Instance GPU)(硬件级隔离方案):

物理切割原理:

  • 安培架构GPU(如A100)含7个GPC(图形处理集群)
  • 每个MIG实例独占:
    • 独立计算单元(SMs子集)
    • 专用L2缓存切片
    • 隔离的显存通道

7种实例规格(A100 40GB):

限制:总实例数≤7,显存总和≤物理显存

实例类型算力占比显存适用场景
1g.5gb1/75GB轻量推理
1g.10gb1/710GB中等模型推理
2g.20gb2/720GB大模型推理
3g.40gb3/740GB训练/高负载推理

2.2.3 开源方案:GPU-PV(容器/虚拟机场景轻量虚拟化)(如Kubevirt + vGPU)

实现原理:

  • 通过Kubernetes Device Plugin暴露分时GPU
  • 无硬件虚拟化支持,依赖CUDA MPS(多进程服务)

2.3 性能隔离与QoS保障

资源类型隔离方案技术实现
计算单元vGPU:时间片轮转
MIG:物理隔离
GPU调度器(GSP)
硬件分区
显存静态分区每个vGPU/MIG实例固定显存配额
显存带宽令牌桶算法限流NVIDIA Frame Rate Limiter (FRL)
PCIe带宽权重分配SR-IOV VF流量控制

三、多虚一(N GPU → 1实例)技术概览

3.1 核心应用场景

场景需求特征典型案例
大语言模型训练千亿参数加载/显存需求>80GBGPT-4训练需128张H100 GPU集群
科学计算仿真双精度浮点性能>100 TFLOPSCFD流体模拟(10亿网格粒子)
实时渲染农场4K@120fps实时光线追踪电影级场景渲染(《阿凡达2》)
基因组学分析TB级数据并行处理癌症基因组序列比对

3.2 核心实现方案

3.2.1 硬件互联层:打破通信瓶颈

在这里插入图片描述

NVLink拓扑架构(以DGX H100为例):

  • 全连接带宽:900 GB/s(NVLink 4.0)
  • 8卡互连延迟:<500 ns
  • 对比PCIe 5.0:仅128 GB/s,延迟>2 μs

GPUDirect RDMA关键技术:

  • 绕过CPU直接访问远端GPU显存
  • 支持InfiniBand/ROCEv2网络(要求≥100 Gbps)
  • 带宽利用率达95%(传统TCP/IP仅40%)

3.2.2 软件聚合层:并行计算框架

框架通信机制适用场景
PyTorch DDP环状AllReduce动态图模型训练
TensorFlow MirroredStrategyHierarchical Copy静态图分布式训练
DeepSpeed ZeRO显存分片+梯度聚合千亿参数模型训练
NVIDIA NCCLGPU-GPU直接通信底层集合通信库

3.3 性能优化关键

3.3.1 通信-计算重叠

梯度压缩:

  • FP16混合精度(节省50%通信量)
  • 1-bit Adam(通信量降至1/32)

流水线并行(Pipeline Parallelism):

在这里插入图片描述

  • 微批次(Micro-batching)隐藏通信延迟
  • Megatron-LM实现千卡训练效率>52%

3.3.2 拓扑感知调度

NVIDIA DGX SuperPOD架构:

  • 32节点(256 GPU)通过InfiniBand分层交换
  • 通信热点区域带宽保障

Kubernetes调度策略:

# 要求GPU同节点拓扑
affinity:nodeAffinity:requiredDuringSchedulingIgnoredDuringExecution:nodeSelectorTerms:- matchExpressions:- key: topology.kubernetes.io/zoneoperator: Invalues: [ "nvlink-group-1" ]

3.4 与一虚多技术的协同模式

混合架构案例:AI云服务平台:

在这里插入图片描述

优势:

  • 推理任务:MIG隔离保障SLA
  • 训练任务:多虚一突破单卡限制

资源调度:Kubernetes实现自动扩缩容

四、GPU虚拟化示例

基于文章开头单节点单GPU无法部署多个使用GPU的pod场景,来看看可以怎么操作实现多pod使用一块GPU。这里我们使用Time-Slicing方案,官方参考文档:

About Configuring GPU Time-Slicing

Shared Access to GPUs

4.1 准备configMap

准备如下configMap用于Time-Slicing配置:

# cm.yaml
apiVersion: v1
kind: ConfigMap
metadata:name: nvidia-device-plugin-confignamespace: kube-system
data:config.yaml: |version: v1flags:migStrategy: nonefailOnInitError: truenvidiaDriverRoot: /sharing:timeSlicing:resources:- name: nvidia.com/gpureplicas: 5  # 将1个GPU拆分成5个虚拟实例,如果有n个GPU,则会拆分成5*n个实例

创建该configMap:

$ kubectl apply -f cm.yaml
configmap/nvidia-device-plugin-config created

4.2 修改nvidia k8s-device-plugin(daemonSet)

使用kubectl -n kube-system edit ds nvidia-device-plugin-daemonset命令修改nvidia k8s-device-plugin配置:

...
spec:template:spec:- containers:name: nvidia-device-plugin-ctrargs: # 新增args配置- --config-file=/etc/nvidia-device-plugin/config.yaml...volumeMounts:- mountPath: /etc/nvidia-device-plugin # 新增configMap的mountPathname: device-plugin-config...volumes:- name: device-plugin-config # 新增configMap volumeconfigMap:name: nvidia-device-plugin-config
...

修改完daemonSet pod会自动重建:

$ kubectl -n kube-system get pod | grep nvidia
nvidia-device-plugin-daemonset-nn9dc      1/1     Running   0              47s

4.3 查看node上的GPU资源

可以看到nvidia k8s-device-plugin完成了GPU资源的上报,并把GPU资源数量修改为了5个(物理层面只有一个)。

$ kubectl get node
NAME              STATUS   ROLES                  AGE    VERSION
desktop-72rd6ov   Ready    control-plane,master   425d   v1.22.7$ kubectl get node desktop-72rd6ov -oyaml| grep nvidia.com -A 1 -B 6allocatable:cpu: "16"ephemeral-storage: "972991057538"hugepages-1Gi: "0"hugepages-2Mi: "0"memory: 16142544Kinvidia.com/gpu: "5"pods: "110"capacity:cpu: "16"ephemeral-storage: 1055762868Kihugepages-1Gi: "0"hugepages-2Mi: "0"memory: 16244944Kinvidia.com/gpu: "5"pods: "110"

4.4 创建pod验证

还是使用文章开头的nginx pod yaml创建多个pod:

// 先删除旧pod
$ kubectl delete pod gpu-pod-1
pod "gpu-pod-1" deleted
$ kubectl delete pod gpu-pod-2
pod "gpu-pod-2" deleted// 修改yaml中pod名称重新创建6个
$ kubectl get pod -o wide
NAME        READY   STATUS    RESTARTS   AGE   IP             NODE              NOMINATED NODE   READINESS GATES
gpu-pod-1   1/1     Running   0          41s   10.244.0.236   desktop-72rd6ov   <none>           <none>
gpu-pod-2   1/1     Running   0          31s   10.244.0.237   desktop-72rd6ov   <none>           <none>
gpu-pod-3   1/1     Running   0          24s   10.244.0.238   desktop-72rd6ov   <none>           <none>
gpu-pod-4   1/1     Running   0          19s   10.244.0.239   desktop-72rd6ov   <none>           <none>
gpu-pod-5   1/1     Running   0          12s   10.244.0.240   desktop-72rd6ov   <none>           <none>
gpu-pod-6   0/1     Pending   0          6s    <none>         <none>            <none>           <none>// 进入2个pod验证
$ kubectl exec -ti gpu-pod-1 -- bash
root@gpu-pod-1:/# nvidia-smi --version
NVIDIA-SMI version  : 560.35.02
NVML version        : 560.35
DRIVER version      : 560.94
CUDA Version        : 12.6$ kubectl exec -ti gpu-pod-4 -- bash
root@gpu-pod-4:/# nvidia-smi --version
NVIDIA-SMI version  : 560.35.02
NVML version        : 560.35
DRIVER version      : 560.94
CUDA Version        : 12.6
root@gpu-pod-4:/#

总结

本文简单介绍了nvidia GPU虚拟化的常见方法,包含“一虚多”和“多虚一”场景。以“一虚多”为例,本文以nvidia k8s-device-plugin支持的Time-Slicing方案演示了多个pod使用一张GPU的应用,但实际使用过程中,Time-Slicing存在多应用互相影响的风险,在某些业务场景是无法接受的,生产中一般会按cuda核心和显存大小切割成不同的实例避免应用相互影响,但这又可能降低GPU资源的利用率,总之针对不同场景、不同应用可能需要选择不同的GPU虚拟化方案,GPU虚拟化也有待更深入地探索。

http://www.xdnf.cn/news/933265.html

相关文章:

  • 【 SpringCloud | 微服务 MQ基础 】
  • 【AS32系列MCU调试教程】深度解析:使用 Eclipse 调试AS32系列MCU芯片的工程搭建
  • 永磁同步电机无速度算法--自适应龙贝格观测器
  • 技术栈Etcd的介绍和使用
  • RMQ 算法详解(区间最值问题)
  • 自然语言处理——文本分类
  • Unity使用代码分析Roslyn Analyzers
  • 湖北理元理律师事务所视角:企业债务优化的三维平衡之道
  • Python训练打卡Day43
  • 十二.理解Const关键字
  • JS Day04
  • Polarctf2025夏季赛 web java ez_check
  • 进程优先级
  • ffmpeg(五):裁剪与合并命令
  • 二叉树“倒着看”:层次遍历的反向打开方式
  • 分库分表的取舍
  • 禅道18.2集成LDAP
  • mac:大模型系列测试
  • 原型对象(Prototype)详解
  • BeckHoff_FB --> SET_SNB 功能块
  • Pyppeteer企业级爬虫实战:从动态渲染到反反爬突破(2025终极指南)
  • Day 21
  • 华为OD机考-机房布局
  • LLMs基础学习(八)强化学习专题(1)
  • 用 Lazarus IDE 写一个邮件客户端软件,能收发邮件,编写邮件
  • Django知识-视图
  • Go语言--语法基础5--基本数据类型--输入输出(1)
  • 【Go语言基础【17】】切片:一种动态数组
  • 如何利用 OpenCV 进行实时图像处理与对象检测
  • LeetCode - 560. 和为 K 的子数组