当前位置: 首页 > web >正文

vllm命令行启动方式并发性能实测

设备V100双卡,测试模型qwen2.5-7b,并发度为100。

表现如下:

单卡959.48token/s

双卡 使用

--pipeline-parallel-size 2

939.78token/s
双卡 使用
--tensor-parallel-size 2
1084.82token/s
双卡,两张卡分别跑一个接口,形成两个接口1308.76token/s

结论

1.流水线并行对性能几乎无提升。

2.张量并行对性能有较低提升。

3.跑两个接口性能较大提升,但是也非成倍提升,可能是CPU限制。

我的数据并行方式启动失败了,网友们可以提供下数据并行的性能提升情况。
我的命令如下: 

CUDA_VISIBLE_DEVICES=1,2 python3 -m vllm.entrypoints.openai.api_server --model Qwen2.5-7B-Instruct --max_model_len=20000 --port 5000 --dtype half --data-parallel-size 2

也可以给我指出如何才能正确运行数据并行。

http://www.xdnf.cn/news/4525.html

相关文章:

  • 联想Horizon 2系列电脑 参数
  • SpringBoot学生宿舍管理系统开发实现
  • 浏览器跨标签通信的实现原理
  • feign负载均衡
  • linux(centos)联网情况下部署
  • 第一章——typec电路
  • SpirngAI框架 Advisor API详解
  • 【无标题】如何在sheel中运行Spark
  • 基于Django框架开发的企业级IT资产管理系统
  • Topic和Partition的关系是什么?为什么需要分区? (Topic是逻辑分类,Partition是物理分片;提升并行度和扩展性)
  • 【信息系统项目管理师-论文真题】2005下半年论文详解(包括解题思路和写作要点)
  • mint系统详解详细解释
  • 开源数学推理模型DeepSeek-Prover-V2:88.9%通过率+超长推理链
  • 数造科技携 DataBuilder 亮相安徽科交会,展现“DataOps +AI”双引擎魅力
  • 机器学习之嵌入(Embeddings):从理论到实践
  • LangChain第二讲:不设置环境变量也能调用LLM大模型吗?(更简单地调用LLM)
  • LabVIEW表面粗糙度测量及算法解析
  • Python cv2视频处理基础:从入门到实战
  • 我如何在ubuntu截图和屏幕录制,有什么好用的免费的软件吗?
  • C++ 基础复习
  • 蓝牙L2CAP协议概述
  • 微机控制电液伺服拉扭疲劳试验系统
  • 004 Linux基本指令
  • C语言| 递归求两个数的最大公约数
  • 17.Three.js 光照系统之《LightProbe》详解指南(含 Vue 3示例)
  • 准确--Notepad++ 实用的插件介绍
  • 【论文阅读】HunyuanVideo: A Systematic Framework For Large Video Generative Models
  • Linux系统安装指南
  • vue2中的组件注册
  • Landsat WRS介绍 及 Polygon定位WRS算法