vllm命令行启动方式并发性能实测
设备V100双卡,测试模型qwen2.5-7b,并发度为100。
表现如下:
单卡 | 959.48token/s |
双卡 使用 --pipeline-parallel-size 2 | 939.78token/s |
双卡 使用 --tensor-parallel-size 2 | 1084.82token/s |
双卡,两张卡分别跑一个接口,形成两个接口 | 1308.76token/s |
结论
1.流水线并行对性能几乎无提升。
2.张量并行对性能有较低提升。
3.跑两个接口性能较大提升,但是也非成倍提升,可能是CPU限制。
我的数据并行方式启动失败了,网友们可以提供下数据并行的性能提升情况。
我的命令如下:
CUDA_VISIBLE_DEVICES=1,2 python3 -m vllm.entrypoints.openai.api_server --model Qwen2.5-7B-Instruct --max_model_len=20000 --port 5000 --dtype half --data-parallel-size 2
也可以给我指出如何才能正确运行数据并行。