NCCL-TEST ib集群测试UCX代替方案
添加UCX变量
export OMPI_MCA_pml=ucx
export OMPI_MCA_btl='^openib'
运行过程指定UCX参数
mpirun -np 8 --allow-run-as-root \--mca pml ucx \--mca btl ^openib \
参考本地训练运行代码
#!/bin/bashexport TMOUT=0source /etc/profile.d/set_cuda_env.sh
source /etc/profile.d/set_openmpi_env.sh# 设置使用UCX并禁用openib
export OMPI_MCA_pml=ucx
export OMPI_MCA_btl='^openib'
# 可选:禁用vader和tcp,强制使用UCX
export OMPI_MCA_btl_base_verbose=1cd ./nccl-tests || exit 1# local server
local_run(){# 使用mpirun运行,确保UCX被使用mpirun -np 8 --allow-run-as-root \--mca pml ucx \--mca btl ^openib \./build/all_reduce_perf -b 128M -e 8G -f 2 -g 8 | tee /root/NCCL.log 2>&1
}local_run