当前位置: 首页 > ops >正文

sglang0.4.3参数说明

执行命令:

Python3 -m sglang.launch_server --model-path /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B  --host 172.26.*.* --port 9300    --tp 4  --trust-remote-code    --served-model-name  qwen32b

运行结果

响应速度

参数说明

model_path: 模型文件所在的路径。

tokenizer_path: 分词器文件所在的路径。这里与模型路径相同。

tokenizer_mode: 分词器的加载模式,'auto'表示自动检测合适的分词器。

skip_tokenizer_init: 是否跳过分词器初始化,默认为False。

load_format: 加载模型的格式,'gguf'表示使用GGUF格式。

trust_remote_code: 是否信任远程代码,默认为False。这涉及到安全性和潜在风险。

dtype: 数据类型,'auto'表示自动选择合适的数据类型。

kv_cache_dtype: 键值缓存的数据类型,'auto'表示自动选择。

quantization: 量化策略,None表示不进行量化。

quantization_param_path: 量化的参数文件路径,未指定时为None。

context_length: 上下文长度,未指定时为None。

device: 设备类型,'cuda'表示使用GPU。

served_model_name: 服务中使用的模型名称,这里直接使用了模型路径作为名称。

chat_template: 聊天模板,未指定时为None。

is_embedding: 是否以嵌入模式运行,默认为False。

revision: 版本控制标识,未指定时为None。

host: 服务器监听的IP地址,这里是本地回环地址。

port: 服务器监听的端口号。

mem_fraction_static: 静态分配给进程的内存比例。

max_running_requests: 最大并发请求数,未指定时为None。

max_total_tokens: 最大总token数,未指定时为None。

chunked_prefill_size: 填充块大小。

max_prefill_tokens: 最大预填充token数。

schedule_policy: 调度策略,'fcfs'表示先来先服务。

schedule_conservativeness: 调度保守性程度。

cpu_offload_gb: CPU卸载的GB数。

tp_size: 张量并行度大小。

stream_interval: 流式输出间隔。

stream_output: 是否启用流式输出,默认为False。

random_seed: 随机种子,用于结果的可重复性。

constrained_json_whitespace_pattern: 约束JSON空白字符模式,未指定时为None。

watchdog_timeout: 监视器超时时间。

dist_timeout: 分布式超时设置,未指定时为None。

download_dir: 下载目录,未指定时为None。

base_gpu_id: 基础GPU ID。

gpu_id_step: GPU ID步长。

log_level: 日志级别,'info'表示信息级别日志。

log_level_http: HTTP请求的日志级别,未指定时为None。

log_requests: 是否记录请求,默认为False。

log_requests_level: 请求日志级别。

show_time_cost: 是否显示时间成本,默认为False。

enable_metrics: 是否启用指标收集,默认为False。

decode_log_interval: 解码日志间隔。

api_key: API密钥,未指定时为None。

file_storage_path: 文件存储路径。

enable_cache_report: 是否启用缓存报告,默认为False。

reasoning_parser: 推理解析器,未指定时为None。

dp_size: 数据并行度大小。

load_balance_method: 负载均衡方法,'round_robin'表示轮询方式。

ep_size: 专家并行度大小。

dist_init_addr: 分布式初始化地址,未指定时为None。

nnodes: 节点数量。

node_rank: 当前节点的排名。

json_model_override_args: JSON格式的模型覆盖参数,为空字符串表示没有覆盖。

lora_paths: LoRA路径集合,未指定时为None。

max_loras_per_batch: 每批次最大LoRA数。

lora_backend: LoRA后端,'triton'表示使用Triton。

attention_backend: 注意力机制后端,'flashinfer'表示使用FlashInfer。

sampling_backend: 抽样后端,'flashinfer'表示使用FlashInfer。

grammar_backend: 语法后端,'outlines'表示使用Outlines。

speculative_algorithm: 投机算法,未指定时为None。

speculative_draft_model_path: 投机草稿模型路径,未指定时为None。

speculative_num_steps: 投机步骤数。

speculative_eagle_topk: 投机TopK值。

speculative_num_draft_tokens: 投机草稿token数。

speculative_accept_threshold_single: 单一投机接受阈值。

speculative_accept_threshold_acc: 累积投机接受阈值。

speculative_token_map: 投机token映射,未指定时为None。

enable_double_sparsity: 是否启用双重稀疏性,默认为False。

ds_channel_config_path: 双重稀疏通道配置文件路径,未指定时为None。

ds_heavy_channel_num: 双重稀疏重型通道数。

ds_heavy_token_num: 双重稀疏重型token数。

ds_heavy_channel_type: 双重稀疏重型通道类型。

ds_sparse_decode_threshold: 双重稀疏解码阈值。

disable_radix_cache: 是否禁用基数缓存,默认为False。

disable_cuda_graph: 是否禁用CUDA图,默认为False。

disable_cuda_graph_padding: 是否禁用CUDA图填充,默认为False。

enable_nccl_nvls: 是否启用NCCL NVLS,默认为False。

disable_outlines_disk_cache: 是否禁用大纲磁盘缓存,默认为False。

disable_custom_all_reduce: 是否禁用自定义All Reduce,默认为False。

disable_mla: 是否禁用MLA,默认为False。

disable_overlap_schedule: 是否禁用重叠调度,默认为False。

enable_mixed_chunk: 是否启用混合块,默认为False。

enable_dp_attention: 是否启用数据并行注意力,默认为False。

enable_ep_moe: 是否启用专家并行Mixture of Experts,默认为False。

enable_torch_compile: 是否启用Torch编译,默认为False。

torch_compile_max_bs: Torch编译最大批量大小。

cuda_graph_max_bs: CUDA图最大批量大小。

cuda_graph_bs: CUDA图批量大小,未指定时为None。

torchao_config: TorchAO配置,为空字符串表示无特殊配置。

enable_nan_detection: 是否启用NaN检测,默认为False。

enable_p2p_check: 是否启用P2P检查,默认为False。

triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力,默认为False。

triton_attention_num_kv_splits: Triton注意力KV分割数量。

num_continuous_decode_steps: 连续解码步骤数。

delete_ckpt_after_loading: 加载后是否删除checkpoint,默认为False。

enable_memory_saver: 是否启用内存节省,默认为False。

allow_auto_truncate: 是否允许自动截断,默认为False。

enable_custom_logit_processor: 是否启用自定义logit处理器,默认为False。

tool_call_parser: 工具调用解析器,未指定时为None。

enable_hierarchical_cache: 是否启用层次缓存,默认为False。

enable_flashinfer_mla: 是否启用FlashInfer MLA,默认为False。

flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged,默认为False。

warmups: 预热次数,未指定时为None。

debug_tensor_dump_output_folder: 调试张量转储输出文件夹,未指定时为None。

debug_tensor_dump_input_file: 调试张量转储输入文件,未指定时为None。

debug_tensor_dump_inject: 是否注入调试张量转储,默认为False。

http://www.xdnf.cn/news/10198.html

相关文章:

  • 建筑兔零基础人工智能自学记录101|Transformer(1)-14
  • 使用PowerBI个人网关定时刷新数据
  • MySQL强化关键_018_MySQL 优化手段及性能分析工具
  • 11.springCloud AlibabaNacos服务注册和配置中心
  • 【算法训练营Day04】链表part2
  • mkcert实现本地https
  • Kafka 如何保证顺序消费
  • GitHub 趋势日报 (2025年05月30日)
  • DeepSeek 赋能自动驾驶仿真测试:解锁高效精准新范式
  • 前端面经 DNSxieyi1
  • Go语言的context
  • 第4节 Node.js NPM 使用介绍
  • linux 1.0.6
  • BFD 基本工作原理与实践:如何与 VRRP 联动实现高效链路故障检测?
  • 数据库运维管理系统在AI方向的实践
  • 【拓扑排序】P7150 [USACO20DEC] Stuck in a Rut S|普及+
  • AnyTXT Searcher 文档内容搜索工具 v1.3.2034 官方版
  • LeetCode - 面试题 02.04. 分割链表
  • gcc相关内容
  • 单例模式的类和静态方法的类的区别和使用场景
  • python打卡day41
  • bert扩充或者缩小词表
  • 企业AI部署热潮下的安全隐忧:速度与安全的博弈
  • QT入门学习
  • 电脑驱动程序更新工具, 3DP Chip 中文绿色版,一键更新驱动!
  • 【基础算法】高精度(加、减、乘、除)
  • 【iOS】方法交换
  • 【SpringBoot实战】优雅关闭服务
  • 【NLP 78、手搓Transformer模型结构及实战】
  • 34.x64汇编写法(一)