nputop:昇腾 NPU 交互式监控工具
nputop:昇腾 NPU 交互式监控工具
nputop
是一个专为监控和管理运行在华为昇腾(Ascend)NPU 上的进程而设计的交互式命令行工具。受到 NVIDIA 生态中流行的 nvitop
项目的启发,nputop
为昇腾 NPU 平台带来了类似的可视化交互体验,让开发者可以直观地查看设备利用率、显存使用、温度和功耗等实时指标。相比仅靠命令行的 npu-smi
等工具,nputop
将多条指标整合在终端界面中,让我们无需记忆多条命令就能全方位掌握 NPU 状态。
nvitop昇腾版,欢迎前往项目主页(GitHub – youyve/nputop)了解更多细节,并点击 ⭐ Star 支持这个开源项目,共同推动昇腾 NPU 生态的发展!🚀
运行效果
主要功能
- 实时监控:跟踪 NPU 使用率、显存占用、温度和功耗等关键指标。
- 交互式界面:支持键盘和鼠标操作,可方便地切换视图、排序和筛选进程。
- 进程管理:直接查看并操作运行中的 NPU 进程(例如选中进程并结束任务)。
- 多 NPU 支持:同时监控和管理多块昇腾 NPU 的状态。
- 轻量命令行工具:安装配置简单,可无缝集成到开发或运维流程中。
此外,昇腾官方的 npu-smi
工具也可以查询 NPU 的各种监控数据,例如功耗(Pwr)、温度(Temp)、AI 核利用率、AI CPU 利用率、控制 CPU 利用率、内存占用率、内存带宽等。nputop
通过终端图形化界面整合了这些数据,让我们不必多次输入命令就能一览所有信息,使用体验更加友好。
安装与使用
在使用 nputop
之前,请确保已安装 Python(需 ≥3.10)以及华为昇腾 NPU 的驱动和运行时环境 (CANN)。安装命令非常简单:只需在终端执行以下命令即可安装最新版本的 nputop:
pip install ascend-nputop
安装完成后,直接在终端输入 nputop
即可启动监控界面。若系统中有多块 NPU,可通过设置环境变量 ASCEND_RT_VISIBLE_DEVICES
来限制可见设备,例如:
export ASCEND_RT_VISIBLE_DEVICES=0,1
nputop
快捷操作
在 nputop
的监控界面中,可以使用以下快捷键来快速操作:
- ←/→/TAB:选择不同的进程
- S:对当前列进行排序
- C:切换紧凑显示模式(Compact Mode)
- K:选中进程并按 K 键结束该进程
- R:手动刷新当前数据
- Q 或 Ctrl+C:退出
nputop
适用对象
- 昇腾 NPU 开发者:开发和调试 AI 模型时,实时监控 NPU 运行状态,助力性能调优。
- AI 研究人员:在科研场景下快速了解算力利用率,优化深度学习训练过程。
- 高校师生学习:在学习和实验中,直观掌握昇腾 NPU 的工作情况。
- AI 服务器运维:运维工程师监控机房中昇腾 NPU 状态,及时发现并解决问题。
总之,只要你的项目中使用了昇腾 NPU,nputop
都能提供很好的可视化监控支持,让你像使用 nvitop
一样便捷地管理 Ascend 设备。🔥
立即行动! 如果你觉得 nputop
有用,欢迎前往项目主页(GitHub – youyve/nputop)了解更多细节,并点击 ⭐ Star 支持这个开源项目,共同推动昇腾 NPU 生态的发展!🚀