当前位置：首页 > ops >正文

sglang0.4.3参数说明

ops 2025/7/16 6:52:36

执行命令：

Python3 -m sglang.launch_server --model-path /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B  --host 172.26.*.* --port 9300    --tp 4  --trust-remote-code    --served-model-name  qwen32b

运行结果

响应速度

参数说明

model_path: 模型文件所在的路径。

tokenizer_path: 分词器文件所在的路径。这里与模型路径相同。

tokenizer_mode: 分词器的加载模式，'auto'表示自动检测合适的分词器。

skip_tokenizer_init: 是否跳过分词器初始化，默认为False。

load_format: 加载模型的格式，'gguf'表示使用GGUF格式。

trust_remote_code: 是否信任远程代码，默认为False。这涉及到安全性和潜在风险。

dtype: 数据类型，'auto'表示自动选择合适的数据类型。

kv_cache_dtype: 键值缓存的数据类型，'auto'表示自动选择。

quantization: 量化策略，None表示不进行量化。

quantization_param_path: 量化的参数文件路径，未指定时为None。

context_length: 上下文长度，未指定时为None。

device: 设备类型，'cuda'表示使用GPU。

served_model_name: 服务中使用的模型名称，这里直接使用了模型路径作为名称。

chat_template: 聊天模板，未指定时为None。

is_embedding: 是否以嵌入模式运行，默认为False。

revision: 版本控制标识，未指定时为None。

host: 服务器监听的IP地址，这里是本地回环地址。

port: 服务器监听的端口号。

mem_fraction_static: 静态分配给进程的内存比例。

max_running_requests: 最大并发请求数，未指定时为None。

max_total_tokens: 最大总token数，未指定时为None。

chunked_prefill_size: 填充块大小。

max_prefill_tokens: 最大预填充token数。

schedule_policy: 调度策略，'fcfs'表示先来先服务。

schedule_conservativeness: 调度保守性程度。

cpu_offload_gb: CPU卸载的GB数。

tp_size: 张量并行度大小。

stream_interval: 流式输出间隔。

stream_output: 是否启用流式输出，默认为False。

random_seed: 随机种子，用于结果的可重复性。

constrained_json_whitespace_pattern: 约束JSON空白字符模式，未指定时为None。

watchdog_timeout: 监视器超时时间。

dist_timeout: 分布式超时设置，未指定时为None。

download_dir: 下载目录，未指定时为None。

base_gpu_id: 基础GPU ID。

gpu_id_step: GPU ID步长。

log_level: 日志级别，'info'表示信息级别日志。

log_level_http: HTTP请求的日志级别，未指定时为None。

log_requests: 是否记录请求，默认为False。

log_requests_level: 请求日志级别。

show_time_cost: 是否显示时间成本，默认为False。

enable_metrics: 是否启用指标收集，默认为False。

decode_log_interval: 解码日志间隔。

api_key: API密钥，未指定时为None。

file_storage_path: 文件存储路径。

enable_cache_report: 是否启用缓存报告，默认为False。

reasoning_parser: 推理解析器，未指定时为None。

dp_size: 数据并行度大小。

load_balance_method: 负载均衡方法，'round_robin'表示轮询方式。

ep_size: 专家并行度大小。

dist_init_addr: 分布式初始化地址，未指定时为None。

nnodes: 节点数量。

node_rank: 当前节点的排名。

json_model_override_args: JSON格式的模型覆盖参数，为空字符串表示没有覆盖。

lora_paths: LoRA路径集合，未指定时为None。

max_loras_per_batch: 每批次最大LoRA数。

lora_backend: LoRA后端，'triton'表示使用Triton。

attention_backend: 注意力机制后端，'flashinfer'表示使用FlashInfer。

sampling_backend: 抽样后端，'flashinfer'表示使用FlashInfer。

grammar_backend: 语法后端，'outlines'表示使用Outlines。

speculative_algorithm: 投机算法，未指定时为None。

speculative_draft_model_path: 投机草稿模型路径，未指定时为None。

speculative_num_steps: 投机步骤数。

speculative_eagle_topk: 投机TopK值。

speculative_num_draft_tokens: 投机草稿token数。

speculative_accept_threshold_single: 单一投机接受阈值。

speculative_accept_threshold_acc: 累积投机接受阈值。

speculative_token_map: 投机token映射，未指定时为None。

enable_double_sparsity: 是否启用双重稀疏性，默认为False。

ds_channel_config_path: 双重稀疏通道配置文件路径，未指定时为None。

ds_heavy_channel_num: 双重稀疏重型通道数。

ds_heavy_token_num: 双重稀疏重型token数。

ds_heavy_channel_type: 双重稀疏重型通道类型。

ds_sparse_decode_threshold: 双重稀疏解码阈值。

disable_radix_cache: 是否禁用基数缓存，默认为False。

disable_cuda_graph: 是否禁用CUDA图，默认为False。

disable_cuda_graph_padding: 是否禁用CUDA图填充，默认为False。

enable_nccl_nvls: 是否启用NCCL NVLS，默认为False。

disable_outlines_disk_cache: 是否禁用大纲磁盘缓存，默认为False。

disable_custom_all_reduce: 是否禁用自定义All Reduce，默认为False。

disable_mla: 是否禁用MLA，默认为False。

disable_overlap_schedule: 是否禁用重叠调度，默认为False。

enable_mixed_chunk: 是否启用混合块，默认为False。

enable_dp_attention: 是否启用数据并行注意力，默认为False。

enable_ep_moe: 是否启用专家并行Mixture of Experts，默认为False。

enable_torch_compile: 是否启用Torch编译，默认为False。

torch_compile_max_bs: Torch编译最大批量大小。

cuda_graph_max_bs: CUDA图最大批量大小。

cuda_graph_bs: CUDA图批量大小，未指定时为None。

torchao_config: TorchAO配置，为空字符串表示无特殊配置。

enable_nan_detection: 是否启用NaN检测，默认为False。

enable_p2p_check: 是否启用P2P检查，默认为False。

triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力，默认为False。

triton_attention_num_kv_splits: Triton注意力KV分割数量。

num_continuous_decode_steps: 连续解码步骤数。

delete_ckpt_after_loading: 加载后是否删除checkpoint，默认为False。

enable_memory_saver: 是否启用内存节省，默认为False。

allow_auto_truncate: 是否允许自动截断，默认为False。

enable_custom_logit_processor: 是否启用自定义logit处理器，默认为False。

tool_call_parser: 工具调用解析器，未指定时为None。

enable_hierarchical_cache: 是否启用层次缓存，默认为False。

enable_flashinfer_mla: 是否启用FlashInfer MLA，默认为False。

flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged，默认为False。

warmups: 预热次数，未指定时为None。

debug_tensor_dump_output_folder: 调试张量转储输出文件夹，未指定时为None。

debug_tensor_dump_input_file: 调试张量转储输入文件，未指定时为None。

debug_tensor_dump_inject: 是否注入调试张量转储，默认为False。

查看全文

http://www.xdnf.cn/news/10198.html

建筑兔零基础人工智能自学记录101|Transformer（1）-14

使用PowerBI个人网关定时刷新数据

MySQL强化关键_018_MySQL 优化手段及性能分析工具

11.springCloud AlibabaNacos服务注册和配置中心

【算法训练营Day04】链表part2

mkcert实现本地https

Kafka 如何保证顺序消费

GitHub 趋势日报 (2025年05月30日)

DeepSeek 赋能自动驾驶仿真测试：解锁高效精准新范式

BFD 基本工作原理与实践：如何与 VRRP 联动实现高效链路故障检测？

数据库运维管理系统在AI方向的实践

【拓扑排序】P7150 [USACO20DEC] Stuck in a Rut S|普及+

AnyTXT Searcher 文档内容搜索工具 v1.3.2034 官方版

LeetCode - 面试题 02.04. 分割链表

gcc相关内容

单例模式的类和静态方法的类的区别和使用场景

python打卡day41

bert扩充或者缩小词表

企业AI部署热潮下的安全隐忧：速度与安全的博弈

QT入门学习

电脑驱动程序更新工具， 3DP Chip 中文绿色版，一键更新驱动！

【基础算法】高精度（加、减、乘、除）

【iOS】方法交换

【SpringBoot实战】优雅关闭服务

【NLP 78、手搓Transformer模型结构及实战】

34.x64汇编写法（一）

执行命令：

运行结果

响应速度

参数说明

相关文章：