当前位置：首页 > ai >正文

wsl 安装vllm 0.9.1 + torch 2.7.0 + xformers 0.0.30 + flashinfer

ai 2025/6/19 10:38:19

system version: Ubuntu 22.04
python version: 3.11   # 3.13 以上或3.9以下可能安装失败

一、安装vllm

# 官网：https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html#create-a-new-python-environment
# 要保证 cuda 版本与torch一致 12.6
pip install vllm==0.9.1 --extra-index-url https://download.pytorch.org/whl/cu126

二、覆盖 torch 版本

# 官网：https://pytorch.org/get-started/previous-versions/
# cuda 版本选择 12.6，与上面一致
pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

三、xformers 安装：

xformer 版本冲突问题:
卸载重装：xformers github

pip3 install -U xformers==0.0.30 --index-url https://download.pytorch.org/whl/cu126 --no-deps
# 这会只安装 xformers 本身，不安装或更新其依赖项，或更改torch版本

四、安装flashinfer加速推理

flashinfer github

pip install flashinfer-python

五、wsl2 使用vllm部署模型时出现部署成功，但127.0.0.1 无法访问问题

vllm 部署DeepSeek-R1-Distill-Qwen-1.5B

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--reasoning-parser deepseek_r1 \--host 0.0.0.0 \--port 8000# 使用 --hf-token 加入Huggingface 用户token 下载模型
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \--reasoning-parser deepseek_r1 \--host 0.0.0.0 \--port 8000 \--hf-token XXXXXXXXXXXXXXX

在这里插入图片描述

但使用 curl 访问127.0.0.1 或 localhost服务会失败，这可能是wsl2镜像网络造成的

curl 127.0.0.1:8000/v1/models
# 使用 -v 获得访问的详细信息
curl -v 127.0.0.1:8000/v1/models

在这里插入图片描述

解决方法：使用ifconfig获得wsl 的虚拟ip，使用该ip进行访问

curl -v 192.168.1.4:8000/v1/models

在这里插入图片描述
可以看到依然访问失败，这里是因为 192.** 触发了本地网络代理服务器，将代理取消访问

curl --proxy "" -v 192.168.1.4:8000/v1/models
# 或者使用下面命令临时禁用代理后访问
unset http_proxy https_proxy HTTP_PROXY HTTPS_PROXY 
curl -v 192.168.1.4:8000/v1/models# python 取消代理的方法
import os
# 方法一：删除代理相关的环境变量
proxy_vars = ['http_proxy', 'https_proxy', 'HTTP_PROXY', 'HTTPS_PROXY']
for var in proxy_vars:if var in os.environ:del os.environ[var]# 方法二：设置为空字符串
os.environ['http_proxy'] = ''
os.environ['https_proxy'] = ''
os.environ['HTTP_PROXY'] = ''
os.environ['HTTPS_PROXY'] = ''