wsl 安装vllm 0.9.1 + torch 2.7.0 + xformers 0.0.30 + flashinfer
system version: Ubuntu 22.04
python version: 3.11 # 3.13 以上或3.9以下可能安装失败
一、安装vllm
# 官网:https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html#create-a-new-python-environment
# 要保证 cuda 版本与torch一致 12.6
pip install vllm==0.9.1 --extra-index-url https://download.pytorch.org/whl/cu126
二、覆盖 torch 版本
# 官网:https://pytorch.org/get-started/previous-versions/
# cuda 版本选择 12.6,与上面一致
pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
三、xformers 安装:
- xformer 版本冲突问题:
卸载重装:xformers github
pip3 install -U xformers==0.0.30 --index-url https://download.pytorch.org/whl/cu126 --no-deps
# 这会只安装 xformers 本身,不安装或更新其依赖项,或更改torch版本
四、安装flashinfer加速推理
flashinfer github
pip install flashinfer-python
五、wsl2 使用vllm部署模型时出现部署成功,但127.0.0.1 无法访问问题
vllm 部署DeepSeek-R1-Distill-Qwen-1.5B
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--reasoning-parser deepseek_r1 \--host 0.0.0.0 \--port 8000# 使用 --hf-token 加入Huggingface 用户token 下载模型
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--reasoning-parser deepseek_r1 \--host 0.0.0.0 \--port 8000 \--hf-token XXXXXXXXXXXXXXX
但使用 curl 访问127.0.0.1
或 localhost
服务会失败,这可能是wsl2镜像网络造成的
curl 127.0.0.1:8000/v1/models
# 使用 -v 获得访问的详细信息
curl -v 127.0.0.1:8000/v1/models
解决方法:使用ifconfig
获得wsl 的虚拟ip
,使用该ip
进行访问
curl -v 192.168.1.4:8000/v1/models
可以看到依然访问失败
,这里是因为 192.**
触发了本地网络代理服务器,将代理取消访问
curl --proxy "" -v 192.168.1.4:8000/v1/models
# 或者使用下面命令临时禁用代理后访问
unset http_proxy https_proxy HTTP_PROXY HTTPS_PROXY
curl -v 192.168.1.4:8000/v1/models# python 取消代理的方法
import os
# 方法一:删除代理相关的环境变量
proxy_vars = ['http_proxy', 'https_proxy', 'HTTP_PROXY', 'HTTPS_PROXY']
for var in proxy_vars:if var in os.environ:del os.environ[var]# 方法二:设置为空字符串
os.environ['http_proxy'] = ''
os.environ['https_proxy'] = ''
os.environ['HTTP_PROXY'] = ''
os.environ['HTTPS_PROXY'] = ''
访问成功: