当前位置: 首页 > web >正文

VLLM : RuntimeError: NCCL error: invalid usage

本机环境

  • 2080 Ti
  • cuda版本:11.8
  • torch版本:torch-2.7.0-cu118
  • vllm版本:0.9.1.dev241+g8335667c2.cu118 (我是源码编译的,pip安装whl正常,但运行提示:Aborted core dumped,所以重新源码编译)

错误提示

RuntimeError: NCCL error: invalid usage (run with NCCL_DEBUG=WARN for details)

定位错误

根据提示,打开NCCL_DEBUG=WARN 

  • 1:如果是shell脚本 

  • 2:如果是python脚本
NCCL_DEBUG=WARN NCCL_DEBUG_FILE=./nccl_debug.log python your_script.py
  • 3:查看nccl_debug.log

misc/strongstream.cc:53 NCCL WARN NCCL cannot be captured in a graph if either it wasn't built with CUDA runtime >= 11.3 or if the installed CUDA driver < R465. 

错误与 issue:https://github.com/vllm-project/vllm/issues/7548 一致,其中也给出了方案

解决方案

重新编译cu118nccl

参考:Linux下NCCL源码编译安装 - chenzhen0530 - 博客园

git clone https://github.com/NVIDIA/nccl.git
cd nccl
make -j12 src.build BUILDDIR=your-path-to-nccl CUDA_HOME=/usr/local/cuda NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80"

-j12: 表示使用12个核心,可根据自己情况进行调整;
BUILDDIR: 表示编译后,一些文件的存储路径;默认是nccl/build;当然如果是root用户可以指定到/usr/local/ncc/;
CUDA_HOME: 表示CUDA的目录,默认就是/usr/local/cuda(自己ls看一下);
NVCC_GENCODE:如果不添加该字段,默认会编译支持所有架构;为了加速编译以及降低二进制文件大小,添加该字段,具体comute_?,sm_?需要和自己显卡算力相匹配。

图标来自:https://blog.csdn.net/kabuto_hui/article/details/145949489

替换虚拟环境中的cu118相关文件

查看当前虚拟环境路径后

import sys
sys.prefix

替换头文件 和 库文件

nccl/lib/* -> 虚拟环境地址/lib/python3.12/site-packages/nvidia/nccl/lib/nccl/include/* -> 虚拟环境地址/lib/python3.12/site-packages/nvidia/nccl/include/

http://www.xdnf.cn/news/13145.html

相关文章:

  • 底层文件传输方式和传输机制
  • 高中为何要引入集合
  • Spring是如何实现无代理对象的循环依赖
  • 华为云Flexus+DeepSeek征文 | 基于Dify构建网站智能客服
  • SSH协议与应用
  • Python如何给视频添加音频和字幕
  • Vue3setup的参数说明
  • AI电销机器人智能的发展趋势是什么?
  • 海云安高敏捷信创白盒SCAP入选《中国网络安全细分领域产品名录》
  • 使用ONNX模型实现M-LSD算法
  • Windows11 WSL2 Ubuntu编译安装perf工具
  • 蓝桥杯 冶炼金属
  • 网页版便签应用开发:HTML5本地存储与拖拽交互实践
  • 深度学习:小米 MiMo-VL 技术报告学习
  • https相关
  • 鸿蒙Next仓颉语言开发实战教程:店铺详情页
  • Linux 性能利器:详解 `top` 命令的使用与输出信息解析
  • 【Pandas】pandas DataFrame dropna
  • Linux安装字体
  • Python抽象基类注册机制解析:优雅实现接口兼容的艺术
  • 基于 HTTP 的单向流式通信协议SSE详解
  • Android Framework预装traceroute执行文件到system/bin下
  • JS红宝书10.1-10.5 函数
  • PHP7内核剖析 学习笔记 第十章 扩展开发(1)
  • 【蓝桥杯嵌入式】【复盘】第15届国赛真题
  • 7种分类数据编码技术详解:从原理到实战
  • Java基于BS架构的OA流程可视化实战:从工作流引擎到前端交互(附完整源代码+论文框架)
  • 学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
  • ubuntu22.04有线网络无法连接,图标也没了
  • QT 仿网易云项目