当前位置: 首页 > news >正文

A10服务器使用vllm推理框架成功运行Qwen3大模型

1.下载Qwen3大模型:

git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git

放在服务器的/mnt/workspace/Qwen3-1.7B目录下。

2.创建python虚拟环境:

python3 -m venv venv1
source venv1/bin/activate

3.安装vllm推理框架

pip install vllm 

在这里插入图片描述

4.启动vllm服务

CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \--model /mnt/workspace/Qwen3-1.7B \--served-model-name qwen3 \--gpu-memory-utilization=0.85 \--tensor-parallel-size 1 \--trust-remote-code

注意以下几点:
(1)如果不指定端口,则vllm默认端口是8000;
(2)参数gpu-memory-utilization必须加上,不然可能会报oom显存不足的错误;
(3)tensor-parallel-size的个数,取决于使用的GPU数量。
启动需加载1-2分钟左右,启动结果如下:
在这里插入图片描述
在这里插入图片描述

5.查询大模型

curl http://localhost:8000/v1/models

查询到名字为qwen3的模型:
在这里插入图片描述

6.调用大模型服务

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen3","messages": [{"role": "user", "content": "介绍一下你自己"}],"temperature": 0.7,"top_p": 0.8,"top_k": 20,"max_tokens": 128,"presence_penalty": 1.5,"chat_template_kwargs": {"enable_thinking": false}
}'

返回结果:
在这里插入图片描述

7.显卡使用情况

在这里插入图片描述

http://www.xdnf.cn/news/605809.html

相关文章:

  • 机器学习第二十四讲:scikit-learn → 机器学习界的瑞士军刀
  • Rancher 部署与使用指南
  • 使用Rancher在CentOS 环境上部署和管理多Kubernetes集群
  • 如何把一台电脑作为另外一台电脑的显示器
  • 地理特征类可视化图像
  • Java 依赖管理工具:使用 Sonatype Nexus 管理项目依赖
  • Ubantu安装 Jenkins LTS
  • AI大模型和SpringAI简介
  • 2025年最新基于Vue基础项目Todolist任务编辑器【适合新手入手】【有这一片足够了】【附源码】
  • php本地 curl 请求证书问题解决
  • Map的遍历与判断键是否存在-《Go语言实战指南》
  • ArcGIS Pro 3.4 二次开发 - 编辑
  • 基于RT-Thread的STM32F4开发第七讲——RTC(硬件、软件)
  • ATGM332D-F8N22单北斗多频定位导航模块
  • SQLMesh Typed Macros:让SQL宏更强大、更安全、更易维护
  • 【闲聊篇】java好丰富!
  • RabbitMQ配置环境变量
  • onnx模型转入rknn3399平台上工作记录
  • React从基础入门到高级实战:React 基础入门 - JSX与组件基础
  • 深入解析Java类加载机制:双亲委派模型
  • Halcon计算点到平面的距离没有那么简单
  • Spring Boot微服务架构(一):如何拆分?如何将CRM系统拆解为多个微服务构建?
  • Spring Boot集成Resilience4j实现微服务容错机制
  • 亚马逊云科技推出Anthropic新一代模型
  • 电子电气架构 --- 下一代汽车电子电气架构中的连接性
  • 传输层协议TCP
  • 撤销Conda初始化
  • 基于BoxMOT的目标检测与跟踪全流程详解
  • OpenCV CUDA 模块中图像过滤------创建一个拉普拉斯(Laplacian)滤波器函数createLaplacianFilter()
  • 【python实用小脚本-79】[HR转型]Excel难民到数据工程师|用Python实现CSV秒转JSON(附HRIS系统对接方案)