当前位置: 首页 > backend >正文

常见的 DCGM 设备级别指标及其含义

前言

在大规模 GPU 集群运维与性能调优中,精准、全面地了解每块显卡的运行状态和健康状况至关重要。NVIDIA 数据中心 GPU 管理 (DCGM) 提供了一系列关键指标,用于监控显存错误、硬件利用率、温度、能耗以及互联带宽等多维度信息。通过对这些指标的持续采集与分析,运维人员可以:

  • 及时发现与定位 ECC 内存错误与硬件故障,保障系统稳定性;
  • 量化计算与传输负载,优化任务调度与资源分配;
  • 监控温度与能耗,平衡性能与功耗,延长设备寿命;
  • 洞察互联带宽与链路质量,提升多 GPU 协同效率;
  • 跟踪虚拟化授权与驱动错误,确保虚拟化环境与驱动可靠性。

下表详细列出了常见的 DCGM 设备级别指标及其含义,供集群部署、监控与故障排查时参考。
在这里插入图片描述

指标名含义
CORRECTABLE_REMAPPED_ROWS可纠正 ECC(单比特)错误所在的内存行,被硬件检测后重映射到备用行的次数。
UNCORRECTABLE_REMAPPED_ROWS不可纠正 ECC(多比特)错误所在的内存行,被硬件检测后重映射到备用行的次数。
ROW_REMAP_FAILURE硬件尝试重映射有 ECC 错误的内存行失败的次数。
DEC_UTIL硬件视频解码器(NVDEC)的利用率百分比。
ENC_UTIL硬件视频编码器(NVENC)的利用率百分比。
FB_FREEGPU 帧缓冲区中尚未使用的显存容量。
FB_USEDGPU 帧缓冲区中已被占用的显存容量。
GPU_TEMPGPU 核心温度(℃)。
MEMORY_TEMP显存(VRAM)温度(℃)。
GPU_UTILGPU SM 核的利用率百分比。
MEM_COPY_UTIL内存拷贝引擎(DMA engine)的利用率百分比。
MEM_CLOCKGPU 全局内存控制器的时钟频率(MHz)。
SM_CLOCKGPU SM 核心的运行时钟频率(MHz)。
NVLINK_BANDWIDTH_TOTAL所有 NVLink 通道合计的带宽利用率(GB/s)。
PCIE_REPLAY_COUNTERPCIe 链路重传(Replay)事件计数。
POWER_USAGE当前功耗(W)。
TOTAL_ENERGY_CONSUMPTION自部署以来累计的总能量消耗(J)。
VGPU_LICENSE_STATUSvGPU 许可证状态(1=有效,0=无效)。
XID_ERRORS驱动报告的 XID 错误计数,反映严重硬件或驱动故障。
http://www.xdnf.cn/news/5487.html

相关文章:

  • 2024睿抗编程赛国赛-题解
  • 作业...
  • 【C/C++】无符号调试:GDB解栈实战指南
  • nrf52832 ble_app_templete_s132及nrf5_sdk packs下载安装
  • 使用FastAPI和React以及MongoDB构建全栈Web应用07 FastAPI实现经典三层架构
  • 2025低空经济发展趋势
  • SQL:SELF JOIN(自连接)与CROSS JOIN(交叉连接)
  • Java从入门到精通 - 数组
  • 排队论基础一:马尔可夫排队模型
  • 力扣刷题Day 46:搜索二维矩阵 II(240)
  • 怎样选择成长股 读书笔记(一)
  • 【RP2350】香瓜树莓派RP2350之Debug仿真报错的处理
  • 详解 Java 并发编程 synchronized 关键字
  • Dockerfile 完全指南:从入门到最佳实践
  • 冰箱拆解学习
  • 中北大学动漫创新实验室问题汇总答疑
  • 2025年PMP 学习九 -第7章 项目成本管理
  • 并发笔记-给数据上锁(二)
  • 软件测试都有什么???
  • split和join的区别‌
  • 左右括号的最小处理次数
  • Redis 基础详解:从入门到精通
  • 本贴会成为记录贴
  • 如何读懂《纯粹理性批判》
  • 【软件测试】基于项目驱动的功能测试报告
  • Java在人工智能中的应用:机器学习与深度学习技术探讨
  • 详解SLAM中的李群和李代数(中)
  • HCIP-BGP实验一
  • Quartus与Modelsim-Altera使用手册
  • JavaSE核心知识点02面向对象编程02-08(异常处理)