当前位置: 首页 > ops >正文

VLLM在linux下部署

1.docker部署

镜像库地址:https://hub.docker.com/r/vllm/vllm-openai/tags

拉取镜像:docker pull vllm/vllm-openai:v0.8.5.post1

启动:

sudo docker run  -d  --privileged=true --gpus all -v /vllm:/home/llm_deploy     -p 9000:8000  --ipc=host     --name vllm2025     vllm/vllm-openai:v0.8.5.post1

可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch,它使用共享内存在后台进程之间共享数据,特别是对于张量并行推理。

2.pip安装vllm==0.8.5 

conda create -n vllm python=3.12 -y
conda activate vllm

pip install vllm

vLLM 是使用 CUDA 12.4 编译的,因此您需要确保机器运行的是该版本的 CUDA。

检查 CUDA 版本,运行:nvcc --version

 如果CUDA 版本不是 12.4,可以安装与您当前 CUDA 版本兼容的 vLLM 版本

3.启动vllm命令

cd /home/llm_deploy/

vllm serve  RolmOCR --dtype=half/

使用时,模型名称为“RolmOCR ”

4.调用接口

  client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")model = "Qwen3-4B"def chat():response = client.chat.completions.create(model=model,messages=[{"role": "user","content": [{"type": "text","text": "中国首都.\n",},],}],temperature=0.1,max_tokens=4096)return response.choices[0].message.contentprint(chat())

http://www.xdnf.cn/news/8044.html

相关文章:

  • 智联物联RG3000边缘计算网关助力智慧城市建设
  • 《C 语言字符串操作从入门到实战(下篇):strncpy/strncat/strstr 等函数原理与实现》
  • 《Android 应用开发基础教程》——第十四章:Android 多线程编程与异步任务机制(Handler、AsyncTask、线程池等)
  • uni-app 排坑
  • Maven Profile中的资源过滤与属性管理
  • 华为2025年校招笔试手撕真题教程(三)
  • 优化用户体验:拦截浏览器前进后退、刷新、关闭、路由跳转等用户行为并弹窗提示
  • 西门子 S1500 博途软件舞台威亚 3D 控制方案
  • SQL:窗口函数(Window Functions)
  • 基于ITcpServer/IHttpServer框架的HTTP服务器
  • 关于大语言模型的问答?
  • 后端开发实习生-抖音生活服务
  • Centos系统资源镜像配置
  • Java集合框架深度剖析:结构、并发与设计模式全解析
  • 生物化学笔记: 药物 论文阅读 赖氨酸用于预防和治疗皮肤单纯疱疹感染 基础信息药理学临床试验
  • 笔试模拟 day12
  • 小白刷题 之 如何高效计算二进制数组中最大连续 1 的个数
  • jQuery Mobile 表单输入详解
  • Linux shell 正则表达式高效使用
  • 配置gem5环境:Dockerfile使用
  • Netty学习专栏(二):Netty快速入门及重要组件详解(EventLoop、Channel、ChannelPipeline)
  • 计算机网络 第三章:运输层(三)
  • AI|Java开发 IntelliJ IDEA中接入本地部署的deepseek方法
  • IDEA启动报错:Cannot invoke “org.flowable.common.engine.impl.persistence.ent
  • LESS基础用法详解
  • 智能制造:基于AI制造企业解决方案架构设计【附全文阅读】
  • Redis实战篇Day01(短信登录篇)
  • 《C++ list详解》
  • 金仓数据库主备切换故障解析,一次由相对路径引发的失败与切换流程解读
  • 抛弃传统P2P技术,EasyRTC音视频基于WebRTC打造教育/会议/远程巡检等场景实时通信解决方案