当前位置: 首页 > web >正文

sh脚本多卡顺序执行训练文件

常规的单机多卡训练脚本一般为

python -m torch.distributed.run --nproc_per_node 2 train.py

上述脚本采用 2 张显卡训练

采用sh脚本,单次顺序执行多个多卡训练文件

例如  train1.py train2.py

特点:在执行完 train1.py之后再执行train2.py文件

#!/bin/bash# 设置环境变量
export CUDA_VISIBLE_DEVICES=0,1  # 指定使用的 GPU 设备
export NCCL_DEBUG=INFO           # 设置 NCCL 的调试级别
export MASTER_ADDR="127.0.0.1"   # 主节点的 IP 地址
export MASTER_PORT="29500"       # 主节点的端口号# 打印开始时间
echo "Training started at $(date)"# 执行第一个训练脚本
echo "Starting training script 1: train1.py"
python -m torch.distributed.run --nproc_per_node 2 train1.py# 检查第一个脚本是否成功执行
if [ $? -ne 0 ]; thenecho "Training script 1 failed at $(date)"exit 1
elseecho "Training script 1 finished successfully at $(date)"
fi# 确保第一个脚本完全结束后再执行第二个脚本
echo "Waiting for 5 seconds to ensure the first script is fully terminated..."
sleep 5# 执行第二个训练脚本
echo "Starting training script 2: train2.py"
python -m torch.distributed.run --nproc_per_node 2 train2.py# 检查第二个脚本是否成功执行
if [ $? -ne 0 ]; thenecho "Training script 2 failed at $(date)"exit 1
elseecho "Training script 2 finished successfully at $(date)"
fi# 打印结束时间
echo "All training scripts finished at $(date)"

http://www.xdnf.cn/news/5318.html

相关文章:

  • C++中线程安全的对多个锁同时加锁
  • C++STL在算法竞赛中的应用详解
  • 推理还原的干货
  • MySQL索引使用规则详解:从设计到优化的完整指南
  • 深度学习全流程解析
  • linux 开发小技巧之git增加指令别名
  • 树莓派4的v4l2摄像头(csi)no cameras available,完美解决
  • 让人类和人造智能体更好的感知世界 千眼狼ACE高速摄像机发布
  • 【数据结构入门训练DAY-30】数的划分
  • JVM 数据区域
  • python:vars()方法
  • 2025年渗透测试面试题总结-渗透测试红队面试四(题目+回答)
  • 免费 无需安装 批量图片压缩 高压缩比与画质保留软件
  • 【验证哥德巴赫猜想(奇数)】2021-11-19 15:54
  • ClassLoader类加载机制的核心引擎
  • C/C++复习--C语言中的函数详细
  • 强化学习系列:深度强化学习和DQN
  • 短剧平台流量突围!端原生片源授权成破局关键
  • 暗物质卯引力挂载技术
  • 【Bluedroid】蓝牙 HID 设备服务注册流程源码解析:从初始化到 SDP 记录构建
  • Docker基础入门
  • C++学习之模板初阶学习
  • 金丝雀/灰度/蓝绿发布的详解
  • 【免费工具】图吧工具箱2025.02正式版
  • 【比赛真题解析】篮球迷
  • 链表头插法的优化补充、尾插法完结!
  • 【数据结构与算法】——图(一)
  • anaconda部分基本指令
  • JavaWeb基础
  • Docker容器网络连接失败与镜像拉取异常全解析