vllm安装注意事项[nccl、cuda、python相关]
1、前言
我们在使用vllm进行大模型并发推理时,逃不开vllm的安装,现对vllm安装时的坑说明下
2、python版本要求
上图展示了vllm各版本与python版本的对应关系,可自行查看,当然如果你选择了py310,就没问题。
3、NCCL版本
NCCL是多机多卡通信的程序库,与cuda也是有版本对应关系的,实践发现通常安装vllm失败是nccl版本低导致的,现经过实践整理对应关系如下:
nccl 2.20.5 安装 vllm 0.6.0 可行
nccl 2.21.5 安装 vllm 0.8.5 不可行
nccl版本可通过如下方式查看:
import torch
print(torch.cuda.nccl.version())
输入格式为:(2, 20, 5)表示你的nccl版本是2.20.5,安装0.6.0版本的vllm是没问题的,直接通过pip安装即可:
pip install vllm==0.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
那么对于nccl版本低导致vllm无法安装的情况,有两种解决方案:
1)对于方便更新nccl的情况,直接更新下软件包的版本即可
2)不方便更新时,可拉取vllm最新版本的docker镜像实现
对于高版本的vllm,如0.8.5,qwen3要求的最低vllm版本是0.8.5才能分布式部署,对于0.6.0版本的vllm,则可部署qwen2.5,根据自己的实际需求安装即可。