LLM推理相关指标
(1)Time To First Token(TTFT)
生成第一个token的时间,衡量的是在用户输入问题或者查询后,LLMs开始响应的速度,关系到实时交互。
(2)Time Per Output Token(TPOT)
每秒输出标记的时间,生成每个输出token所需的时间,10 tokens / second是一个阈值,低于这个阈值系统会觉得卡顿。
(3)Latency = TTFT + TPOT * 生成的token的数量
生成所有tokens的总时间
(4)Throughput
推理服务器在所有请求中每秒生成的tokens数量
优化目标:
(1)最小化TTFT,最大化Throughput,减少TPOT
(2)平衡Throughput和TPOT,并发处理多个请求会增加Throughput,但是会增加每个用户的TPOT。
模型评估的关键参数:
(1)输出长度Output Length:决定延迟
(2)输出长度Input Length:对性能影响较小,但是对硬件要求较高
(3)模型尺寸:更大的模型有更高的延迟,延迟和模型尺寸不成正比,Llama-70B 是 Llama-13B的两倍。