当前位置: 首页 > news >正文

vLLM 本地部署Qwen大模型

1. 安装

pip install -U xformers torch torchvision torchaudio triton --index-url https://download.pytorch.org/whl/cu121
pip install modelscope vllm 

2. 下载模型并测试

/root/t.py

from vllm import LLM, SamplingParams
import torch# 1. 加载模型(强制使用 float16)
llm = LLM(model='Qwen/Qwen2.5-1.5B-Instruct',dtype=torch.float16,  # 关键修正!trust_remote_code=True  # 如果模型需要自定义代码
)# 2. 配置生成参数
sampling_params = SamplingParams(temperature=0.7,top_p=0.9,max_tokens=100
)# 3. 生成文本
outputs = llm.generate(["请用中文解释人工智能的工作原理。"], sampling_params)# 4. 打印结果
for output in outputs:print(output.outputs[0].text)
启动 vLLM 的 OpenAI 兼容服务

命令行输入 vllm serve Qwen/Qwen2.5-1.5B-Instruct --port 9999 --dtype float16

参数说明

  • --port 9999:指定服务端口(默认为 8000)。

  • --dtype float16:强制使用 float16 精度(适配您的 V100 GPU)。

查看模型详情

curl http://localhost:9999/v1/models
验证服务(列出模型)

在新终端运行:

curl http://localhost:9999/v1/models

调用服务 

/root/t1.py

from openai import OpenAI
# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:9999/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,
)chat_response = client.chat.completions.create(model="Qwen/Qwen2.5-1.5B-Instruct",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "你好,我失业了,给我讲个笑话吧"},]
)
print("Chat response:", chat_response)

http://www.xdnf.cn/news/269569.html

相关文章:

  • ES6语法
  • 【大模型面试每日一题】Day 7:为什么大模型训练选择 Adam 而非 SGD?Adam 的关键改进是什么?
  • 被低估的AI+数据标注
  • DeepSeek辅助学术写作之修订与校稿以及发表与推广相关提示词分享祝你顺利毕业~
  • 介绍最前沿的人工智能创新,‘无反向传播’神经网络训练方法?
  • 53、【OS】【Nuttx】编码规范解读(一)
  • [蓝桥杯真题题目及解析]2025年C++b组
  • 计组复习笔记 3
  • 《计算机系统结构》考题知识点整理
  • 经典算法 求解台阶问题
  • 【深度学习-Day 4】掌握深度学习的“概率”视角:基础概念与应用解析
  • AUTOSAR图解==>AUTOSAR_SRS_CoreTest
  • Python----卷积神经网络(LeNet-5的手写体识别)
  • 降维大合集
  • 使用PageHelper实现分页查询(详细)
  • 【多线程】计算机工作原理、操作系统(内含进程、PCB属性、进程调度、内存分配、进程间的通信) —— 简单介绍
  • Nginx相关知识
  • Space Engineers 太空工程师 [DLC 解锁] [Steam] [Windows]
  • 突破养生误区迷障,开启科学养生新程
  • Pytorch-CUDA版本环境配置
  • 实验-组合电路设计1-全加器和加法器(数字逻辑)
  • 冒泡排序详解:从零理解其核心思想与循环设计原理
  • 【信息系统项目管理师-论文真题】2012下半年论文详解(包括解题思路和写作要点)
  • 2025年 蓝桥杯省赛 Python A 组题目
  • 使用DeepSeek定制Python小游戏——以“俄罗斯方块”为例
  • 回溯算法详解(Java实现):从组合到排列的全面解析
  • 方案解读:华为-智慧园区数字平台技术方案【附全文阅读】
  • 安卓基础(MediaProjection)
  • Qt/C++源码/实时视音频通话示例/极低延迟/可外网通话/画中画/支持嵌入式板子
  • 赛季7靶场 -- Checker --User flag