当前位置: 首页 > news >正文

LLM推理相关指标

(1)Time To First Token(TTFT)

生成第一个token的时间,衡量的是在用户输入问题或者查询后,LLMs开始响应的速度,关系到实时交互。

(2)Time Per Output Token(TPOT)

每秒输出标记的时间,生成每个输出token所需的时间,10 tokens / second是一个阈值,低于这个阈值系统会觉得卡顿。

(3)Latency = TTFT + TPOT * 生成的token的数量

生成所有tokens的总时间

(4)Throughput

推理服务器在所有请求中每秒生成的tokens数量

优化目标:

(1)最小化TTFT,最大化Throughput,减少TPOT

(2)平衡Throughput和TPOT,并发处理多个请求会增加Throughput,但是会增加每个用户的TPOT。

模型评估的关键参数:

(1)输出长度Output Length:决定延迟

(2)输出长度Input Length:对性能影响较小,但是对硬件要求较高

(3)模型尺寸:更大的模型有更高的延迟,延迟和模型尺寸不成正比,Llama-70B 是 Llama-13B的两倍。

http://www.xdnf.cn/news/751231.html

相关文章:

  • 【深度学习-Day 20】PyTorch入门:核心数据结构张量(Tensor)详解与操作
  • 一周学会Pandas2之Python数据处理与分析-数据重塑与透视-melt() - 融化 / 逆透视 (宽 -> 长)
  • 2.5/Q2,Charls最新文章解读
  • transformer 输入三视图线段输出长宽高 笔记
  • 大模型应用开发之预训练
  • DAY 16 numpy数组与shap深入理解
  • 【第三十八周】BLIP-2:一种高效的视觉语言预训练框架
  • 介绍一种LDPC码译码器
  • Python 爱心图案代码
  • 计算晶体结构和电子能带的软件
  • 【Python高阶】面向对象
  • C语言-10.字符串
  • 【Day41】
  • 非常有趣的桌面萌宠互动软件
  • 单板机8088C语言计划
  • 前端面经 get和post区别
  • 使用交叉编译工具提示stubs-32.h:7:11: fatal error: gnu/stubs-soft.h: 没有那个文件或目录的解决办法
  • Baklib内容中台革新企业知识实践
  • AI 社交和AI情绪价值的思考
  • 高并发抽奖系统优化方案
  • python训练营day40
  • 共享内存-systemV
  • Python应用for循环遍历寻b
  • homework 2025.03.31 chinese(class 3)
  • DeepSeek R1-0528:深度思考能力的重大跃升与技术突破全解析
  • 一文读懂Automotive SPICE
  • Day41 Python打卡训练营
  • 【HW系列】—Windows日志与Linux日志分析
  • 远程线程注入
  • 【PhysUnits】15.5 引入P1后的标准化表示(standardization.rs)