当前位置: 首页 > web >正文

vLLM Serve 命令参数详解

vLLM Serve 命令参数详解

简介

vllm serve 命令用于启动 vLLM 的 OpenAI 兼容 API 服务器,通过 REST API 与大型语言模型交互。

基本用法

vllm serve [model_tag] [选项]

核心参数

模型配置

参数说明
--model MODEL使用的 Hugging Face 模型名称或路径,默认为 facebook/opt-125m
--model-tag MODEL_TAG模型标签(如果在配置中未指定则为可选)
--revision REVISION特定的模型版本(分支名、标签名或提交 ID)
--served-model-name SERVED_MODEL_NAMEAPI 中使用的模型名称,可提供多个名称

服务器配置

参数说明
--host HOST主机名
--port PORT端口号,默认为 8000
--api-key API_KEY如果提供,服务器将要求在请求头中提供此密钥
--disable-log-requests禁用请求日志记录
--disable-log-stats禁用统计日志
--disable-uvicorn-access-log禁用 uvicorn 访问日志

模型执行配置

参数说明
--dtype {auto,half,float16,bfloat16,float,float32}模型权重和激活的数据类型,auto 会为 FP32/FP16 模型使用 FP16,为 BF16 模型使用 BF16
--max-model-len MAX_MODEL_LEN模型上下文长度,如未指定,会从模型配置自动推导
--max-num-batched-tokens MAX_NUM_BATCHED_TOKENS每次迭代的最大批处理令牌数
--max-num-seqs MAX_NUM_SEQS每次迭代的最大序列数
--gpu-memory-utilization GPU_MEMORY_UTILIZATIONGPU 内存使用率(0-1),默认为 0.9

分布式执行配置

参数说明简写
--tensor-parallel-size TENSOR_PARALLEL_SIZE张量并行组的数量-tp
--pipeline-parallel-size PIPELINE_PARALLEL_SIZE流水线并行组的数量-pp
--data-parallel-size DATA_PARALLEL_SIZE数据并行组的数量-dp

量化配置

参数说明简写
--quantization {aqlm,awq,gptq,...,None}权重量化方法-q
--kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3}KV 缓存的数据类型,auto 将使用模型数据类型

模型加载配置

参数说明
--load-format {auto,pt,safetensors,npcache,dummy,tensorizer,...}加载模型权重的格式
--download-dir DOWNLOAD_DIR下载和加载权重的目录,默认使用 Hugging Face 的默认缓存目录
--trust-remote-code信任来自 Hugging Face 的远程代码

LoRA 配置

参数说明
--enable-lora启用 LoRA 适配器处理
--max-loras MAX_LORAS单个批次中的最大 LoRA 数量
--max-lora-rank MAX_LORA_RANK最大 LoRA 秩
--lora-modules LORA_MODULESLoRA 模块配置,格式为 name=path 或 JSON 格式

高级功能配置

特殊功能配置

参数说明
--chat-template CHAT_TEMPLATE聊天模板的文件路径或单行形式
--generation-config GENERATION_CONFIG生成配置的文件夹路径,默认为 auto
--enable-auto-tool-choice为支持的模型启用自动工具选择
--enable-reasoning启用模型的推理内容生成能力

多模态支持

参数说明
--allowed-local-media-path ALLOWED_LOCAL_MEDIA_PATH允许 API 请求从服务器文件系统指定的目录读取本地图像或视频
--limit-mm-per-prompt LIMIT_MM_PER_PROMPT每个提示允许的每个多模态插件的输入实例数量限制
--mm-processor-kwargs MM_PROCESSOR_KWARGS多模态输入映射/处理的覆盖参数,例如图像处理器

性能优化

参数说明
--enable-chunked-prefill启用基于 max_num_batched_tokens 的分块预填充
--enable-prefix-caching启用自动前缀缓存
--cpu-offload-gb CPU_OFFLOAD_GB每个 GPU 卸载到 CPU 的空间大小(GiB),默认为 0,表示不卸载
--swap-space SWAP_SPACE每个 GPU 的 CPU 交换空间大小(GiB),默认为 4

配置文件

参数说明
--config CONFIG从 YAML 格式的配置文件读取 CLI 选项

使用示例

基本服务启动

vllm serve --model meta-llama/Llama-2-7b-chat-hf --host 0.0.0.0 --port 8000

使用量化模型

vllm serve --model meta-llama/Llama-2-13b-chat-hf --quantization awq

多 GPU 分布式部署

vllm serve --model meta-llama/Llama-2-70b-chat-hf --tensor-parallel-size 4

配置最大批处理参数

vllm serve --model meta-llama/Llama-2-7b-chat-hf --max-num-batched-tokens 8192 --max-num-seqs 128

启用 LoRA

vllm serve --model meta-llama/Llama-2-7b-chat-hf --enable-lora --max-loras 4

指定生成参数配置

vllm serve --model meta-llama/Llama-2-7b-chat-hf --override-generation-config '{"temperature": 0.7, "top_p": 0.9}'

使用特定的聊天模板

vllm serve --model meta-llama/Llama-2-7b-chat-hf --chat-template path/to/template.jinja

启用多模态支持

vllm serve --model llava-hf/llava-1.5-7b-hf --allowed-local-media-path /path/to/images
http://www.xdnf.cn/news/6046.html

相关文章:

  • 小白成长之路-文件和目录内容检索处理(一)
  • 2025年项目管理软件哪个更流行?如何解决用例复用率低的难题?
  • write failed: Connection reset by peer
  • 抖音怎么快速涨粉(抖音推流算法研究)
  • python语言与地理处理note 2025/05/11
  • ArrayList的扩容机制
  • 基于脑功能连接组和结构连接组的可解释特定模态及交互图卷积网络|文献速递-深度学习医疗AI最新文献
  • 普通IT的股票交易成长史--20250513复盘
  • 收集卡牌 第23次CCF-CSP计算机软件能力认证
  • 大模型中的KV Cache
  • 开发者版 ONLYOFFICE 协作空间:3.1版本 API 更新
  • RabbitMQ学习(自用)
  • (顺序表、单链表、双链表)==>一篇解决!(Java版)
  • 【即插即用涨点模块】【上采样】CARAFE内容感知特征重组:语义信息与高效计算两不误【附源码】
  • MyBatis与MyBatis-Plus深度分析
  • SimpleAdmin云服务器发布
  • Qt —— 在Windows10下通过在线安装方式安装Qt6.9.0(附:“server replied: Forbidden“网络出错解决办法)
  • Pytorch张量和损失函数
  • 电子科技浪潮下的华秋电子:慕尼黑上海电子展精彩回顾
  • 反转链表II
  • mysql常用方法
  • 关于Go语言的开发环境的搭建
  • 组合问题(多条件)
  • Linux 系统安全基线检查:入侵防范测试标准与漏洞修复方法
  • C语言| 静态局部变量
  • 3级-运算符
  • 从数据中台到数据飞轮:实现数据驱动的升级之路
  • 论文学习_Trex: Learning Execution Semantics from Micro-Traces for Binary Similarity
  • SparkSQL入门指南:从基础到实践的全面解析
  • 配置Nginx启用Https