当前位置：首页 > ds >正文

大语言模型推理的幕后英雄：深入解析Prompt Processing工作机制

ds 2025/9/5 9:34:48

大语言模型推理的幕后英雄：深入解析Prompt Processing工作机制

当你向ChatGPT提出问题时，系统如何在秒级内理解并开始生成回答？这背后隐藏着大语言模型推理过程中最关键的环节——提示处理（Prompt Processing）。

为什么Prompt Processing如此重要？

在大语言模型的服务过程中，提示处理阶段占据了整个推理计算成本的70%以上，同时也是内存管理最复杂的环节。与人们直觉相反的是，模型生成回答的过程（解码阶段）实际上比处理输入提示的过程要简单得多。

现代LLM服务面临的核心矛盾在于：如何在高并发环境下高效处理可变长度的输入提示，同时为后续的自回归生成阶段做好充分准备。这个问题的解决方案涉及到内存管理、计算优化和调度策略等多个技术领域的深度融合。

Prompt Processing的技术内核

计算阶段划分

大语言模型的推理过程可明确分为两个阶段：

提示处理阶段（Prefill Phase）：

接收完整的用户提示序列 (x₁, x₂, ..., xₙ)
并行计算第一个新token的概率 P(xₙ₊₁ | x₁,...,xₙ)
生成所有提示token的键向量 k₁,...,kₙ 和值向量 v₁,...,vₙ
使用矩阵-矩阵乘法，充分利用GPU并行性

自回归生成阶段（Autoregressive Generation Phase）：

逐个生成后续token (xₙ₊₁, ..., xₙ₊ₜ)
每次迭代只计算一个新token的键值向量
严重依赖之前所有token的KV缓存
使用矩阵-向量乘法，计算效率较低

内存挑战与KV缓存机制

KV缓存是Prompt Processing中的内存瓶颈。以130亿参数的OPT模型为例：

单个token的KV缓存需要800KB空间
计算公式：2（键值向量）× 5120（隐藏状态大小）× 40（层数）× 2（FP16字节数）
支持2048个token的序列需要高达1.6GB内存
并发处理数十个请求时，内存需求轻松超过GPU容量

注意力计算的复杂性

自注意力机制的计算复杂度是Prompt Processing的主要瓶颈：

A_{h} = \mathrm{Softmax}(\alpha Q_{h}K_{h}^{\top})V_{h}

其中 QKᵀ 矩阵乘法操作的时间和内存复杂度为 O(N²)，N为序列长度。对于长提示，这会导致显著的计算和内存压力。

内存管理创新：PagedAttention技术

虚拟内存启发的解决方案

vLLM系统借鉴操作系统虚拟内存的概念，提出了PagedAttention算法：

# 传统连续存储 vs PagedAttention分块存储
class TraditionalKVCache:# 需要预先分配最大可能序列长度的连续内存def __init__(self, max_seq_length):self.cache = allocate_contiguous_memory(max_seq_length)class PagedKVCache:# 按需分配非连续的内存块def __init__(self, block_size):self.blocks = []  # 物理块列表self.block_table = {}  # 逻辑到物理块的映射

KV块管理机制

逻辑KV块：每个请求的KV缓存表示为一系列逻辑块，从左到右填充
物理KV块：GPU工作器分配连续的GPU DRAM块并划分为物理KV块
块表：维护逻辑块和物理块之间的映射关系，记录每个块的填充位置

这种设计使得：

无需预先为所有位置保留内存
动态增长KV缓存内存而无需预留空间
消除现有系统中的大部分内存浪费

分块注意力计算

PagedAttention将传统的注意力计算转换为分块计算：

给定块大小B，键块 Kⱼ = (k_{(j-1)B+1}, ..., k_{jB})，值块 Vⱼ = (v_{(j-1)B+1}, ..., v_{jB})，注意力计算按块进行。

实际工作流程示例

让我们通过一个具体例子了解vLLM如何处理包含7个token的提示：

初始分配：vLLM仅为提示计算期间生成的KV缓存保留必要的KV块
逻辑块映射：前2个逻辑KV块（0和1）映射到2个物理KV块（7和1）
Prefill步骤：使用传统自注意力算法生成提示的KV缓存和第一个输出token
存储策略：前4个token的KV缓存存储在逻辑块0，后续3个token存储在逻辑块1
预留空间：最后一个块的剩余槽位保留给后续自回归生成阶段

高效计算技术

内存压缩注意力

通过跨步卷积减少键值对数量：

使用内核大小和步长为k的卷积，注意力机制的计算和内存成本降至O(n·n/k)
允许模型在输入序列之间全局交换信息，而不仅限于局部注意力

线性注意力机制

传统softmax注意力计算成本为O(N² max(D,M))，而线性注意力通过特征映射将时间和内存复杂度降至O(N)：

V_{i}^{\prime} = \frac{\phi(Q_{i})^{T}\sum_{j = 1}^{N}\phi(K_{j})V_{j}^{T}}{\phi(Q_{i})^{T}\sum_{j = 1}^{N}\phi(K_{j})}

批处理优化

精细批处理机制解决了传统批处理的问题：

迭代级调度：每次迭代后移除已完成请求，添加新请求
减少排队延迟和填充低效
使用特殊GPU内核消除输入输出填充需求

性能优化与挑战

块大小权衡

选择适当的KV块大小至关重要：

较大块大小：使PagedAttention内核能够并行处理更多位置的KV缓存，提高硬件利用率和降低延迟
较小块大小：减少内存碎片，提高内存利用率
需要在实际部署中找到最佳平衡点

内存碎片管理

传统系统存在三种内存浪费：

保留浪费：为未来token保留的槽位
内部碎片：为潜在最大序列长度过度配置
外部碎片：内存分配器（如伙伴分配器）产生的外部碎片

vLLM的分页方法将每个请求的内存浪费限制在一个块内，显著提高内存利用率。

调度与抢占策略

LLM服务面临独特挑战：输入提示长度差异大，输出长度先验未知。vLLM采用全有或全无的驱逐策略，基于启发式预测哪些块将在最远的未来被访问。

未来发展方向

Prompt Processing技术的演进集中在几个关键方向：

更长上下文窗口：通过RoPE位置编码和位置插值技术，将LLM上下文窗口扩展到200万token以上
动态内存管理：更智能的内存分配和回收策略，适应多样化工作负载
硬件协同设计：专门为LLM推理优化的硬件架构，减少内存带宽瓶颈
多模态扩展：适应图像、音频等多模态输入的提示处理技术

结语

Prompt Processing作为大语言模型推理的核心环节，其效率直接决定了整个系统的性能和成本。通过PagedAttention等创新技术，我们能够更高效地管理KV缓存，实现更好的硬件利用率和更高的服务吞吐量。

随着模型规模的持续增长和应用场景的不断扩大，Prompt Processing技术将继续演进，为更强大、更高效的AI系统奠定坚实基础。理解这一过程的技术细节，不仅有助于开发者优化模型服务，也为研究者指明了未来的创新方向。

查看全文

http://www.xdnf.cn/news/20160.html

时序数据库IoTDB的六大实用场景盘点

基于机器学习的缓存准入策略研究

服务器异常磁盘写排查手册 · 已删除文件句柄篇

安装与配置Jenkins（小白的”升级打怪“成长之路）

AI-Agent智能体提示词工程使用分析

leetcode212.单词搜索II

SQL优化与准确性提升：基于RAG框架的智能SQL生成技术解析

webrtc之高通滤波——HighPassFilter源码及原理分析

正则表达式，字符串的搜索与替换

【面试题】介绍一下BERT和GPT的训练方式区别？

Ansible 项目管理核心要点总结

进程与线程详解， IPC通信与RPC通信对比，Linux前台与后台作业

Android入门到实战（八）：从发现页到详情页——跳转、传值与RecyclerView多类型布局

深度学习——ResNet 卷积神经网络

Python快速入门专业版（二）：print 函数深度解析：不止于打印字符串（含10+实用案例）

Docker多阶段构建Maven项目

K8s资源管理：高效管控CPU与内存

React学习之路永无止境：下一步，去向何方？

Jmeter基础教程详解

STM32H750 RTC介绍及应用

国产GEO工具哪家强？巨推集团、SEO研究协会网、业界科技三强对比

用C++实现日期类

upload-labs通关笔记-第17关文件上传关卡之二次渲染jpg格式

关于如何在PostgreSQL中调整数据库参数和配置的综合指南

Vue基础知识-脚手架开发-子传父（props回调函数实现和自定义事件实现）

Win11 解决访问网站525 问题 .

【RK3576】【Android14】如何在Android kernel-6.1 的版本中添加一个ko驱动并编译出来?

Django 常用功能完全指南：从核心基础到高级实战

[光学原理与应用-401]：设计 - 深紫外皮秒脉冲激光器 - 元件 - 布拉格衍射在深紫外皮秒声光调制器（AOM）中的核心作用与系统实现

小程序：12亿用户的入口，企业数字化的先锋军