当前位置：首页 > web >正文

vllm命令行启动方式并发性能实测

web 2025/7/2 6:24:39

设备V100双卡，测试模型qwen2.5-7b,并发度为100。

表现如下：

单卡	959.48token/s
双卡使用 --pipeline-parallel-size 2	939.78token/s
双卡使用 --tensor-parallel-size 2	1084.82token/s
双卡，两张卡分别跑一个接口，形成两个接口	1308.76token/s

结论

1.流水线并行对性能几乎无提升。

2.张量并行对性能有较低提升。

3.跑两个接口性能较大提升，但是也非成倍提升，可能是CPU限制。

我的数据并行方式启动失败了，网友们可以提供下数据并行的性能提升情况。
我的命令如下：

CUDA_VISIBLE_DEVICES=1,2 python3 -m vllm.entrypoints.openai.api_server --model Qwen2.5-7B-Instruct --max_model_len=20000 --port 5000 --dtype half --data-parallel-size 2

也可以给我指出如何才能正确运行数据并行。

http://www.xdnf.cn/news/4525.html

相关文章：

联想Horizon 2系列电脑参数

SpringBoot学生宿舍管理系统开发实现

浏览器跨标签通信的实现原理

feign负载均衡

linux(centos)联网情况下部署

第一章——typec电路

SpirngAI框架 Advisor API详解

【无标题】如何在sheel中运行Spark

基于Django框架开发的企业级IT资产管理系统

Topic和Partition的关系是什么？为什么需要分区？（Topic是逻辑分类，Partition是物理分片；提升并行度和扩展性）

【信息系统项目管理师-论文真题】2005下半年论文详解（包括解题思路和写作要点）

mint系统详解详细解释

开源数学推理模型DeepSeek-Prover-V2：88.9%通过率+超长推理链

数造科技携 DataBuilder 亮相安徽科交会，展现“DataOps +AI”双引擎魅力

机器学习之嵌入(Embeddings)：从理论到实践

LangChain第二讲:不设置环境变量也能调用LLM大模型吗?(更简单地调用LLM)

LabVIEW表面粗糙度测量及算法解析

Python cv2视频处理基础：从入门到实战

我如何在ubuntu截图和屏幕录制，有什么好用的免费的软件吗？

C++ 基础复习

蓝牙L2CAP协议概述

微机控制电液伺服拉扭疲劳试验系统

004 Linux基本指令

C语言| 递归求两个数的最大公约数

17.Three.js 光照系统之《LightProbe》详解指南（含 Vue 3示例）

准确--Notepad++ 实用的插件介绍

【论文阅读】HunyuanVideo: A Systematic Framework For Large Video Generative Models

Linux系统安装指南

vue2中的组件注册

Landsat WRS介绍及 Polygon定位WRS算法