当前位置：首页 > web >正文

docker-vllm运行大模型

web 2025/7/1 16:27:34

vllm镜像下载，国内代理源
vllm/vllm-openai - Docker Image - 毫秒镜像https://1ms.run/r/vllm/vllm-openai
执行下载docker pull docker.1ms.run/vllm/vllm-openai

查看本地镜像

查看镜像

查看镜像
docker images导出镜像
docker save -o E:\docker\ollama.tar docker.1ms.run/ollama/ollama:latest
导入镜像
docker load < ollama.tar

启动镜像

docker run --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

参数解释：
-v ：目录映射
--gpus 使用卡数

ps：
如遇到如下问题，可在启动命令上增加 --privileged

示例

docker run --privileged --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

查看全文

http://www.xdnf.cn/news/2937.html