当前位置：首页 > ds >正文

Context Engineering survey

ds 2025/9/7 7:12:25

Link: https://arxiv.org/pdf/2507.13334

github: https://github.com/Meirtz/Awesome-Context-Engineering

Introduction

大语言模型（LLMs）的出现带来了人工智能的范式转变，展现出前所未有的自然语言理解、生成和推理能力。 然而，这些模型的性能本质上由其接收的上下文信息所决定。上下文可以是简单的指令提示，也可以是复杂的外部知识库，是引导模型行为、增强知识和拓展能力的关键机制。

随着LLMs从基础的指令执行系统发展为复杂应用中的核心推理引擎，上下文的设计与管理方法也逐步演化，形成了“上下文工程”（Context Engineering）这一正式学科。 该领域研究持续扩展，产生了诸多专门但相互割裂的研究方向。作者将上下文工程划分为“基础组件”和后续的“系统实现”，基础组件包括：

上下文检索与生成（如提示词工程与外部知识获取）
上下文处理（如长序列处理、自我优化、结构化信息整合）
上下文管理（如记忆层级、压缩与优化策略）

这些基础组件为更复杂的应用系统（如检索增强生成RAG、类人记忆系统、智能体系统）提供构建基础。智能体系统代表了上下文工程的顶层形态，结合了函数调用、工具推理、多智能体通信与编排，实现了复杂目标的协作。

当前领域研究多为孤立开展，缺乏统一框架，导致技术内在联系被掩盖，用户和研究者难以全面理解和高效利用。 因此，亟需系统地梳理、分类并揭示各技术之间的关系。

本文的核心贡献是提出结构化的上下文工程技术分类体系，明确区分基础组件与系统实现，系统回顾现状，分析主要机制、优势与不足，并指出未来研究方向。本综述旨在为领域发展提供技术路线图和理解基础，推动上下文工程持续创新。

Related Work

随着大语言模型（LLMs）的快速发展，相关综述文献数量激增，但大多聚焦于“上下文工程”这一更广领域中的单一垂直环节，缺乏整体性视角。

在基础组件方面，已有大量综述分别探讨了：

上下文检索与生成（如prompt工程、外部知识获取），涵盖从基础few-shot到结构化推理等多种方法；
上下文处理，包括长序列处理、注意力优化、内存高效管理、自我优化机制以及结构化信息整合等；
上下文管理，主要涉及记忆层级、压缩技术和优化策略，尽管目前尚无专门针对上下文管理的系统综述，但相关记忆系统和压缩技术文献为该领域提供了基础见解。

在系统实现层面，文献广泛覆盖了：

检索增强生成（RAG），从基础RAG到模块化、自治代理和图增强等多种架构；
记忆系统，包括增强型智能体、自主架构和多种记忆机制；
工具集成推理，涵盖函数调用、工具编排和复杂环境交互演化过程；
多智能体系统，系统梳理了多智能体通信协议、编排与协调机制等。

评估方法方面，已有综述对各类基准与评价框架进行了细致梳理，覆盖组件级与系统级评估。

以往的综述虽在各自领域提供了深入洞察，但整体呈现出碎片化特征，未能揭示各技术之间的本质联系。 本文的主要贡献在于：首次将“上下文工程”作为统一抽象，明确区分基础组件与系统集成，并提出系统化的技术分类框架，全面梳理各领域的最新进展及其相互关系，为后续研究与实践提供全景视图和理论基础。

![[Screenshot 2025-08-05 at 15.12.21.png]]

Why Context Engineering?

LLMs能力提升推动交互方式进化。
随着大语言模型（LLMs）从简单的指令执行系统演变为复杂应用的核心推理引擎，交互和信息组织方式也必须同步升级。传统的“提示词工程”（Prompt Engineering）已无法满足现代AI系统对信息载荷设计、管理与优化的全方位需求。现代系统不再依赖单一静态文本，而是需要动态、结构化和多元的信息流。

上下文工程定义与核心思想。
上下文工程（Context Engineering）将“上下文”视为由多个信息组件（如系统指令、外部知识、工具定义、持久记忆、动态状态、用户请求等）动态组织和装配的整体。这些组件通过一组函数（如检索、选择、格式化、汇总等）被智能地组合，形成适用于不同任务的最佳上下文。其本质是在模型能力、任务需求和资源约束下，优化信息流以提升输出质量，并提出了信息论和贝叶斯推断等理论框架支持科学化优化。

与传统提示词工程的区别。

模型构建：提示词工程依赖静态字符串，上下文工程采用动态、结构化的上下文装配。
优化目标：提示词工程优化单一任务概率，上下文工程以系统级函数优化期望奖励。
复杂性管理：提示词工程手动调整，上下文工程实现模块化、自动化优化与系统级调试。
信息处理与扩展性：上下文工程可处理更长、更复杂、更丰富的数据类型（如多模态、结构化、时序、意图、文化等）。
错误分析：上下文工程支持系统化评估与函数级调试。

现有技术瓶颈与应用需求。
LLMs面临计算资源瓶颈（如自注意力机制带来的高计算与存储负担）、实际部署中的延迟与成本、以及幻觉、不一致、输入敏感等可靠性问题。传统提示词工程存在方法学局限，难以对复杂应用和大规模系统进行系统优化。

性能与资源优化价值。
上下文工程通过检索增强生成、结构化提示等方法大幅提升模型准确性、推理能力和特定领域表现，显著减少资源消耗，提高响应效率。例如在文本导航、代码总结、硬件设计等场景实现了数倍到数十倍的性能提升和资源节约。

未来潜力。
上下文工程支持在上下文中学习，促进模型自适应新任务，尤其适用于低资源场景和多领域泛化。其发展方向涵盖更强的信息筛选、压缩、自动优化机制，以及跨模态、多维度的上下文利用，为智能系统的持续进化奠定基础。
![[Screenshot 2025-08-05 at 15.20.06.png]]

Foundational Components

上下文工程建立在三大基础组件之上，协同解决大语言模型中的信息管理核心挑战：

上下文检索与生成：通过提示工程、外部知识检索和动态上下文组装，系统性地获取和构建合适的上下文信息。
上下文处理：利用长序列处理、自我优化机制和结构化数据整合，对获取的信息进行转化和优化，提升其质量和利用效率。
上下文管理：通过解决基本约束、构建高级记忆层级和压缩技术，实现高效的信息组织与利用。

这三大基础组件共同奠定了上下文工程的理论和实践基础，形成了一个全面的框架，各自负责不同环节，同时相互协作，实现上下文的整体优化与有效战略。
![[Screenshot 2025-08-05 at 15.22.51.png]]

上下文检索与生成（Context Retrieval and Generation）

本节作为上下文工程的基础层，聚焦于为大语言模型（LLM）系统性地检索和构建相关的上下文信息，旨在为后续推理与生成过程提供高质量的输入。其核心由三大机制组成：

提示工程与上下文生成（Prompt Engineering and Context Generation）

通过战略性输入设计，构建有效的任务指令和推理框架，指导LLM表现。
CLEAR框架（简明、逻辑、显式、适应性、反思性）为高效提示设计的原则。
支持多种范式：
- 零样本（Zero-shot）：无需示例，仅靠清晰指令和预训练知识完成任务。
- 少样本（Few-shot）：通过选择性地提供示例，提升模型任务执行能力。
- 上下文学习（In-context learning）：在提示中嵌入演示例子，无需参数更新即可适应新任务，示例选择与顺序对效果影响显著。
- 链式思维（CoT）：将复杂推理拆解为中间步骤，显著提升模型推理能力。还包括树式思维（ToT）、图式思维（GoT），分别用层级结构和图结构模拟复杂推理。

外部知识检索（External Knowledge Retrieval）

弥补模型参数知识的局限，通过动态检索外部数据库、知识图谱、文档等信息拓展知识范围。

RAG（Retrieval-Augmented Generation）：结合参数内和检索到的信息，既保证效率又提升时效性和专业性。包含模块化、图增强等多种系统架构。
知识图谱集成和结构化检索：如KAPING、KARPA等框架，能够无训练或推理时动态整合知识，支持多跳推理和复杂信息整合。
代理化和模块化检索系统：通过多代理系统实现动态检索、任务分解、规划与反思，提升检索的灵活性和智能性。

动态上下文组装（Dynamic Context Assembly）

将各类检索和生成的信息组件高效编排，形成满足任务需求的最优上下文输入，兼顾性能与计算资源约束。

组装机制：涵盖模板化格式、优先级选择、自适应组合等，能够按需调整以适配不同任务、模型能力和资源限制。
多智能体系统编排：支持多智能体间的上下文分发、交互与协作，包括意图识别、上下文记忆管理、任务调度等。
自动化优化：通过自动提示生成、进化算法、多代理协作等方式，不断提升组装效率和最终任务表现。
多模态与结构化信息整合：支持文本、结构化数据、时间序列、外部工具接口等多类型信息的融合。

上下文处理（Context Processing）

本节聚焦于对获取到的上下文信息进行高效转换和优化，以最大化其对大语言模型（LLM）的利用价值。内容包括超长上下文处理、自我优化与适应、多模态上下文融合，以及关系与结构化上下文集成。

超长上下文处理（Long Context Processing）

针对Transformer自注意力机制的O(n²)复杂度带来的处理瓶颈，通过架构创新和算法优化，有效扩展可处理的序列长度。

为解决这些问题，出现了多种架构创新：

状态空间模型（SSM）：如Mamba，采用固定大小隐状态，线性计算复杂度和常数内存需求，提升长序列扩展能力。
膨胀注意力（Dilated Attention）：如LongNet，随着token距离增长，注意力范围指数扩展，实现线性复杂度，支持超长序列处理。
Toeplitz神经网络：通过相对位置编码的Toeplitz矩阵降低时空复杂度，提升序列外推能力。
线性注意力机制：将自注意力表示为内积，复杂度从O(n²)降至O(n)，在超长序列下可达4000倍加速。
非注意力LLM、递归记忆Transformer等创新，突破二次复杂度瓶颈。

位置插值和上下文扩展技术：

位置插值通过智能缩放位置索引扩展上下文窗口，如LongRoPE、PoSE等实现数十万到百万级token处理。
**自扩展（Self-Extend）等方法无需微调，通过分层注意力捕获远近依赖。

高效处理优化手段：

Grouped-Query Attention（GQA）、FlashAttention、块式Transformer等降低内存和计算需求，提高处理速度。
稀疏注意力（如S²-Attn、SinkLoRA等）在保证效果的同时减少计算量。
BigBird结合局部和全局注意力，有效提升处理长度。

内存管理与上下文压缩：

滚动缓存、StreamingLLM、Infini-attention等方法通过缓存优化、压缩记忆和高效检索大幅提升超长序列处理能力。
上下文压缩技术（如QwenLong-CPRS、InfLLM等）实现多粒度压缩和有效检索，显著扩展模型处理长度。

上下文自我优化与适应（Contextual Self-Refinement and Adaptation）

支持LLM通过自身反馈、对话自我交互等方式，周期性优化输出结果，提升推理可靠性。

关键内容包括：
1. 自我优化基础框架：

Self-Refine 框架让同一个模型担任生成、反馈和修正等多个角色，表明发现和修正错误往往比一开始就生成完美答案更容易。
Reflexion通过将反思性文本保存在记忆缓冲区，实现模型的长期决策支持。
结构化指导对于实现可靠自我修正至关重要，简单提示往往不足以支持有效的自我优化。
多维反馈与集成评估（如Multi-Aspect Feedback、N-CRITICS、ZAR等）结合多模型和多工具，对输出进行综合评价并反复优化。
ISR-LLM通过将自然语言转化为形式化规范，生成初步方案并结合验证器进行系统修正。
2. 元学习与自主进化：
SELF 框架教授模型自我反馈与自我修正能力，并让模型通过生成和筛选自身训练数据实现持续自我提升。
自激励机制促使模型通过多轮自我奖励不断优化表现。
Creator 框架允许模型自主创建和使用工具，包括创造、决策、执行和识别四个步骤。
Self-Developing 框架让模型自主发现、实现并优化自身改进算法，实现高度自动化的自我进化。
3. 记忆增强式适应：
记忆增强方法（如Memory of Amortized Contexts）将新信息压缩存储，提升模型在线适应能力。
上下文感知元学习与损失调整提升模型应对过时知识和新环境的能力。
决策预训练Transformer与上下文元强化学习让模型能泛化到未见过的任务，并提升样本利用效率。
4. 长链式思维与高级推理：
**长链式思维（Long Chain-of-Thought, LongCoT）**模型通过更长的推理路径实现更深入的思考和自我纠错，支持复杂问题的分步探索与修正。
推理步长的增加即便不增加新信息，也能显著提升模型的推理能力。
推理优化策略包括最优采样、自适应推理模式和紧凑推理路径等，既减少计算量又维持推理质量。

多模态上下文（Multimodal Context）

将视觉、音频、3D等多种模态信息与文本融合，形成统一的上下文表示，拓展LLM的应用边界。

关键内容包括：
1. 多模态集成方法：

通过将视觉输入转为离散token，与文本token拼接，实现多模态信息联合建模。
采用视觉提示生成器（VPG）、CLIP等外部多模态编码器与大语言模型主干对接，通过对齐模块组成模块化架构，便于独立升级各部分。
高级方法如跨模态注意力机制，实现文本和视觉信息的深度融合，提升如图像编辑等任务的语义理解。
支持长输入的分层处理设计，以及多图像上下文融合策略，突破单一模态输入的局限。
有的研究通过联合预训练多模态数据和文本，从源头缓解模态对齐难题；也有方法用文本作为统一语义空间，提升不同模态泛化能力。
2. 多模态上下文处理的核心挑战：
模态偏置：模型易偏向文本输入，生成结果常常缺乏真实视觉或音频依据，难以实现深层多模态理解。
训练方法局限，如VPG仅提取图片描述的显著特征，忽略复杂任务所需的细致信息，造成推理不足。
在如社交媒体等复杂场景下，模型难以精准理解图文关系、识别误导性信息或讽刺内容。
在时空推理、细粒度定位等方面表现有限。
3. 上下文学习与长上下文处理：
MLLMs具备上下文学习能力，可从多模态示例中适应新任务，无需权重更新。
固定上下文窗口限制了多模态多样本学习，且图像token占用大量空间。
针对长视频等输入，采用自适应分层压缩、位置编码、会话记忆模块和动态帧选择等创新方法，提升处理能力。
4. 新兴应用与能力：
多模态上下文推动了预测推理、人类活动预测、多模态问答、智能规划、手术决策支持、视频理解等新应用。
支持触觉、事件流、图结构等新型模态的融合，促进实际场景下的多样化应用。
推动了多模态理解能力的评估体系发展，实现了许多仅靠文本模型无法完成的任务。

关系与结构化上下文（Relational and Structured Context）

针对表格、数据库、知识图谱等结构化数据的处理与集成，解决LLM对结构与关系信息表达不足的问题。

1. 知识图谱嵌入与神经网络集成

知识图谱嵌入（Knowledge Graph Embedding）：将实体和关系转化为数值向量，使LLM可以对结构信息高效编码和计算。
图神经网络（GNN）结合：通过GNN捕捉实体间复杂关系，实现多跳推理。例如GraphKnot通过高效参数化编码函数，显著提升图推理任务的效果（提升高达73个百分点）。Heterformer等混合架构实现文本与异构结构信息的统一建模。

2. 数据结构口语化与多级结构化表示

口语化（Verbalization）：将知识图谱三元组、表格行、数据库记录等结构化数据转为自然语言句子，无需修改模型架构即可融合进LLM。
多级结构化：将输入文本按语言学关系重组为多层结构，或直接利用LLM抽取结构信息，按图、表、关系模式进行表达。
编程语言表达：如用Python表示知识图谱、SQL表示数据库，能更好保留结构特性，在复杂推理任务上优于自然语言表达。
高效矩阵结构：采用结构矩阵等节省参数、提升结构数据处理性能的方法。

3. 集成框架与协同范式

预训练集成法：如K-BERT在训练阶段注入知识三元组，将结构化知识内化到模型参数中。
推理时集成法：如KAPING框架、KG-enhanced LLMs，推理时检索相关事实并融合进提示，无需重新训练整个模型。
深层协同法：如GreaseLM等让知识图谱与LLM在各层深度互动，实现知识与数据的双向推理，语言表示可被结构知识校正，结构推理也受自然语言细节补充。
Adapter与Cross-Attention：通过适配器模块和交叉注意力机制，将知识图谱嵌入直接注入模型隐空间，Text2Graph实现文本与KG的空间映射与融合。

4. 代表方法与性能

ODA：基于观测-行动反思机制，提升推理性能12.87%和8.9%。
RAG-KG：通过历史知识图谱构建与子图检索，提升MRR到77.6%。
KARPA：无需训练即可适配知识图谱，实现KGQA任务SOTA。
Faithful Reasoning：通过规划-检索-推理三步走，强化知识图谱和LLM的协同。
QA-GNN：利用双向注意力机制，把问答与知识图谱通过图消息传递联合建模。
其他方法：K-ALM、StructGPT、Shao等，覆盖知识图谱、表格、数据库，多采用检索增强、预训练一体化、指令微调、结构线性化等方式。

5.实际应用与效果提升

减少幻觉：结构化知识为LLM提供可验证事实来源，有效降低生成幻觉，提升事实准确性。
提升推理能力：通过实体间显式关系，实现复杂多跳推理和层次性推断，增强模型在专业、科学、医疗等领域的可靠性。
多领域落地：如医疗（疾病进展建模）、科研（知识组织与发现）、商业分析（结合规则与智能预测）、复杂问答（支持多模态、多数据源整合）。
性能数据：结构化知识集成可使摘要性能提升40%、14%，动态结构记忆更新（Chain-of-Key）进一步加强信息整合与推理表现。

Context Management

Context Management 主要关注大语言模型中上下文信息的高效组织、存储与利用。

Fundamental Constraints

大语言模型在上下文管理方面面临的根本约束主要包括以下几个方面：
1. 有限的上下文窗口：

绝大多数架构中存在有限的上下文窗口，这极大限制了模型对长文档的深层理解能力。
上下文窗口的限制还带来高计算资源消耗，影响需要快速响应和高吞吐量的应用场景。
2. 计算复杂度问题：
传统Transformer架构在处理超长文本时，计算复杂度随序列长度呈二次增长，使得处理极长文本成本极高。
尽管如LongNet等创新方法将复杂度降低至线性，但在窗口大小与泛化能力之间依然存在权衡。
3. 位置信息偏差和信息遗失：
存在“中间丢失（lost-in-the-middle）”现象，即模型对输入中间部分的信息捕捉能力明显弱于开头或结尾，影响多步推理等任务表现。
早期重要信息易被遗忘，导致推理性能下降，个别场景下性能最多可下降73%。
4. 状态保持与自验证能力的缺失：
LLMs天生是无状态的，缺乏在多轮或连续交互中维持状态的机制，也缺乏稳健的自我验证能力。
必须依赖显式的管理系统来维护操作序列的连贯性和容错恢复。
5. 上下文溢出与塌缩问题：
当上下文超出窗口限制时，模型容易“遗忘”之前的信息。
扩大窗口或引入对话记忆时，模型可能难以区分不同对话上下文，导致“上下文塌缩”。
6. 链式思考提示的局限：
链式思考（Chain-of-Thought）提升效果依赖于具体问题的提示设计，且问题复杂度提升时效果减弱。
7. 计算资源与存储瓶颈：
长上下文处理带来关键-值缓存的存储和访问压力，增加延迟并影响准确性。
多轮、长时交互中，有效上下文受限于窗口长度，限制了知识积累和推理能力。
8. 多轮与多样输入的挑战：
多轮交互和大量示例提示（many-shot prompts）会占用过多上下文空间，影响系统与用户输入的空间分配，并拖慢推理速度。

Memory Hierarchies and Storage Architectures

现代大语言模型的记忆体系采用分层和模块化设计，以突破固定上下文窗口的限制。
1. 操作系统启发的层级记忆系统：

借鉴虚拟内存管理思想，将有限上下文窗口视为主存，将外部存储作为扩展记忆。
典型如 MemGPT，将信息在主上下文（如系统指令、FIFO消息队列、可写缓冲区）和外部上下文间进行分页，外部上下文通过显式函数调用访问，实现自主的记忆分页决策。
PagedAttention 则用操作系统的分页和虚拟内存机制来管理 LLM 的关键-值缓存内存。

2. 基于认知原理的动态记忆系统：

MemoryBank 采用艾宾浩斯遗忘曲线，根据时间和重要性动态调整记忆强度。
ReadAgent 通过分段（episode pagination）、记忆门控生成简明表示，并可交互查找信息。
Compressor-retriever 架构利用模型前向函数对上下文进行压缩和检索，支持终身上下文管理，并保证端到端可微性。

3. 架构级适应性增强：

通过改进注意力机制、优化关键-值缓存管理和调整位置编码，增强模型记忆能力。

4. 组织方式的效率与可扩展性权衡：

集中式系统任务协调高效，但主题增多时易导致上下文溢出；分布式系统减少溢出但响应时间增加。
混合式方法在共享知识和专用处理之间取得平衡，缓解内存饱和与检索效率低下问题。

5. 上下文管理组件：

提供快照创建、中间生成状态恢复和整体上下文窗口管理等基础能力。

Context Compression

上下文压缩技术使大语言模型能够更高效地处理更长的上下文，通过减少计算和存储负担，同时保留关键信息。

1. 自编码器压缩：

采用In-context Autoencoder（ICAE），将长上下文压缩到紧凑的内存槽中，实现4倍压缩，有效提升长上下文窗口的处理能力，推理时延迟和内存使用大幅优化。
循环上下文压缩（RCC）在有限存储空间内扩展上下文窗口长度，通过指令重构技术解决压缩后模型响应质量下降的问题。

2. 记忆增强型方法：

基于KNN的记忆缓存存储过去输入的键值对，便于后续检索，提升语言建模能力。
对比学习提升记忆检索准确性，辅助网络处理记忆陈旧，无需微调主模型。
合并表示法能够动态更新历史token表示，实现理论上无限制的上下文窗口。

3. 分层缓存系统：

实现多层级缓存，如Activation Refilling（ARCE）采用双层KV缓存：第一层捕获全局信息，第二层存储详细局部信息，并根据查询动态补充第一层缓存，实现全局与细节的结合。
Infinite-LLM 通过DistAttention分布式注意力计算、跨实例内存借用和全局协调，实现动态上下文长度管理。
KCache将K缓存存于高带宽内存，V缓存存于GPU，结合注意力计算选择性复制关键内容，优化推理效率。

4. 多智能体分布式处理：

利用多智能体方法分布式处理海量输入，解决知识同步和推理瓶颈。
实际工作负载（如RAG和智能体）中缓存可复用性高，凸显高效分布式缓存及元数据管理的重要性，可减少冗余并提升速度。

Applications

高效的上下文管理显著扩展了大语言模型（LLM）的应用能力，不仅限于问答，还支持多领域的复杂任务。

1. 文档处理与分析：

能够处理整篇文档或完整文章，而非片段，基于全面理解提供相关响应。
对基因序列、法律文书、技术资料等长序列数据尤为重要，可保证大段内容的一致性和连贯性。

2. 扩展的推理与多步问题求解：

支持复杂推理，维护和构建跨长序列的中间结果。
捕捉长距离依赖，适用于需要连续推理的决策支持、科研辅佐等场景。

3. 协同与多智能体系统：

在多轮对话或顺序任务中，支持一致状态和信息同步。
适用于分布式任务处理、协作内容创作、多智能体联合问题解决等场景，确保多次交互间的上下文一致性。

4. 增强的对话接口与任务型系统：

强大的上下文管理让对话更自然、连续，支持人类式长对话不中断。
任务型系统通过滑动窗口、检索增强等机制，便于实现个性化助手、长期辅导、持续性陪伴等应用。

5. 记忆增强型应用：

可实现长期信息的持久存储和动态管理，提升模型对历史交互和知识的利用能力。

System Implementations

本节介绍了上下文工程的基础组件如何被集成到实际智能系统中，展现了从理论到可部署系统的演进。系统实现分为四大类：
1. RAG系统（Retrieval-Augmented Generation）：
通过模块化和图增强架构，将外部知识整合到语言模型中，实现模型与动态外部信息的结合，扩展了模型获取时效性和专业性知识的能力。
2. 记忆系统（Memory Systems）：
采用复杂的记忆架构，实现持久的上下文管理，支持模型的长期学习和信息积累，使模型能够持续利用历史信息。
3. 工具集成推理（Tool-Integrated Reasoning）：
通过函数调用和环境交互，将语言模型转化为能够与外部世界互动的智能体，提升模型的实际操作能力和任务完成能力。
4. 多智能体系统（Multi-Agent Systems）：
通过通信协议和编排机制，实现多个模型的协同工作，支持分布式任务处理和复杂场景下的集体智能。
![[Screenshot 2025-08-05 at 16.57.05.png]]

Retrieval-Augmented Generation

模块化RAG架构

Modular RAG 架构从传统的线性检索-生成模式，转变为可重构、组件灵活交互的框架。

层级结构：包括顶层的RAG阶段、中层的子模块和底层的操作单元，实现了更细致和分层的处理方式。
动态重构能力：通过路由、调度和融合机制，支持架构根据任务需求进行动态调整和优化。
多样模块组合：例如，Rewrite-Retrieve-Read、Generate-Read等模型，结合自适应检索模块、多查询处理（如RAGFusion）、路由模块和混合检索策略，提高检索准确性和上下文相关性。
工具与案例：如FlashRAG提供可独立调整和灵活组合的模块化工具包，ComposeRAG通过原子模块实现问题分解和查询重写，KRAGEN通过知识图谱优化领域推理。
可扩展性与定制性：模块化便于与微调、强化学习集成，支持多样化NLP任务和应用的定制开发。

智能体RAG系统

Agentic RAG 系统将自主 AI 智能体嵌入 RAG 流水线，实现动态、具备上下文感知的操作，依靠持续的推理能力进行任务处理。

智能体能力：支持反思、规划、工具调用和多智能体协作，能够根据任务复杂性动态管理检索策略与工作流程。
多模态与外部记忆集成：基于大模型的智能体可利用多模态感知、调用多种工具、并集成外部长期记忆库，长时间存储和检索信息。
动态检索：智能体像调研员一样主动分析内容、交叉验证信息，不再是静态检索。
实现方式：既有无需训练的 prompt-based 方法，也有通过强化学习优化模块的训练方法，智能体可调用向量数据库、SQL 数据库和 API，提升推理、工具整合、记忆机制和自主决策能力。
核心能力：包括任务分解、方案选择和记忆增强规划，使智能体能分步解决复杂任务。
适应与自我优化：具备自我反思和适应机制，依赖反馈循环持续优化行为，能在动态环境中不断调整。
典型系统特征：如 MemoryBank 采用遗忘曲线优化记忆更新，CQR-RAG 结合因果图检索与强化学习修正查询和幻觉，Self-RAG 通过检索和生成过程中的反思控制推理与行为。

图增强RAG

Graph-Enhanced RAG 采用图结构知识增强检索生成系统，突破传统基于文档的方式，强调结构化知识表达和多跳推理。

结构化知识表达：利用知识图谱等图结构，将实体、关系、领域层级、语义连接进行结构化表示，支持语言模型提取特定推理路径和相关信息。
上下文一致性与抗幻觉：通过实体和关系的互联，减少上下文漂移和幻觉问题，提升检索的相关性和逻辑连贯性。
实现形式：可分为知识库型（图作为知识库）、索引型（图作为索引工具）、混合型（两者结合）。典型实现包括层级索引、三层文档结构、可编辑记忆图等。
图神经网络（GNN）增强：GNN 擅长捕捉实体间关联和提升知识一致性，图相关模块可在与大模型对接前进行有效信息组织与检索。
多跳推理能力：通过跨节点推理，集成多条相关事实，实现复杂查询的分步解决，是非结构化文本难以胜任的。
先进框架：如 GraphRAG、LightRAG、PIKE、EMG-RAG 等，支持多层级检索、图结构遍历和主题聚类，提升多级推理和实体关系发现能力。

应用

实时 RAG 系统：应对生产环境中动态知识库的持续更新与低延迟响应需求，解决高效部署与数据处理流程优化等挑战。

动态检索机制：相较静态方法，可在生成过程中不断调整检索策略，实时根据生成状态和知识差距优化目标和语义空间，提升适应性和信息选择能力。

低延迟检索：利用图结构和密集段落检索技术，实现速度与准确性的优化，如 LightRAG 的双层检索系统能高效发现信息并关联实体关系，减少响应时间。

可扩展性与大规模处理：分布式架构、智能数据分区、查询优化和容错机制提升系统在大规模流式数据下的适应性。记忆优化算法可高效过滤无关文档，保证内容质量。

增量索引与动态知识更新：支持在无需全量重训的情况下适应新信息，适用于网络安全、气候金融等快速变化领域。

多阶段检索与模块化优化：通过多阶段检索管道、检索前的查询扩展和检索后的压缩精炼，实现效率与精度的平衡，并可针对各组件进行细致优化。

增强交互与语义理解：现代框架结合动态知识检索与实时策略调整，提升系统的交互性和跨领域集成能力，满足复杂应用需求。

Memory Systems

![[Screenshot 2025-08-06 at 14.24.20.png]]

Memory Systems 使大语言模型（LLM）突破无状态交互，通过实现持久化的信息存储、检索和利用机制，赋予模型学习、适应和长期上下文理解能力。

Memory Architectures

内存架构是区分高级语言系统与简单模式匹配模型的关键，赋予模型跨自然语言任务的信息处理、存储与利用能力。

当前 LLM 面临的挑战：神经内存机制在结构化信息存储和多跳推理的精确存取方面存在不足，依赖近似向量相似度而非精确符号操作，导致复杂场景下的准确性受限。
内存分类框架：
- 按时间维度：分为感知记忆（输入提示）、短期记忆（即时上下文处理）、长期记忆（外部数据库或专用结构）。
- 按持久性：短期记忆如会话内的键值缓存和隐藏状态，仅在单次会话中存在；长期记忆包括文本存储和模型参数内嵌知识，可跨多轮交互持续存在。
- 按实现方式：参数化记忆（模型权重中的知识）、激活记忆（运行时临时状态）、明文记忆（通过检索增强生成方法获取的外部文本）。
短期记忆机制：通过上下文窗口作为工作记忆，利用键值缓存存储已处理 token 的表示。Transformer 架构可灵活检索任意 token 表示，LSTM 更偏重处理早期语义。短期记忆支持少样本学习和任务自适应，但对超长上下文中的信息检索仍有局限。
长期记忆实现：受限于上下文窗口和灾难性遗忘，需借助外部存储缓存历史信息，实现对相关历史的检索与利用。长期记忆实现方式包括语义网络结构化、语义检索结合遗忘机制、显式读写的分层结构。存储表现为 token 级别（结构化文本）和潜在空间级别（高维向量）两类。
内存访问与组织结构：支持顺序访问和随机访问，借鉴人类认知的初始效应与新近效应。内存组织涵盖文本型存储、知识三元组、分层系统等，核心操作包括编码、检索、反思、摘要、利用、遗忘、截断和判断。
高级方法与心理学原理：部分系统应用如艾宾浩斯遗忘曲线理论、情感依赖记忆理论，兼顾性能与隐私安全。

Memory-Enhanced Agents

记忆增强型智能体通过集成短期和长期记忆，使 LLM 从无状态的模式处理器转变为具备持续学习和适应能力的复杂智能体。

记忆作用：短期记忆支持实时响应和即时上下文感知，长期记忆则支撑长期理解和知识应用，帮助智能体适应环境变化、经验学习及做出需持久信息支撑的决策。
架构集成：现代 LLM 智能体采用类似计算机内存体系结构，短期记忆对应上下文窗口内的主要存储，长期记忆作为持久存储延长信息保留周期。AI 系统既能生成与用户相关的个人记忆，也能存储任务过程中的系统记忆。
主流实现框架：如 MemOS 将记忆分为参数化记忆（模型权重中的知识）、激活记忆（运行时状态）、明文记忆（外部文本）；Self-Controlled Memory (SCM) 通过骨干模型、记忆流和控制器增强长期记忆；REMEMBERER 利用经验记忆和自我反思机制实现无须参数微调的经验学习；MemLUM 通过结构化读写单元解决罕见事件记忆、信息更新和防止幻觉等难题。
核心组件：自主智能体依赖于感知、记忆、规划和行动四大核心模块，协同实现环境感知、交互回忆和自适应决策。
真实应用：在会话 AI、用户模拟、推荐系统、自动驾驶、科学研究、社交仿真、医疗助手、教育等领域，记忆增强智能体实现了更自然的交互、持续的用户关系和个性化体验。
记忆技术与集成方式：RAG（检索增强生成）等技术结合参数化与非参数化记忆，突破上下文窗口限制，利用外部数据库和向量索引实现大容量信息存储与高效检索。新一代系统还采用图数据库、经验缓冲、个性化记忆等方式，进一步提升记忆组织和检索能力。

Evaluation and Challenges

评估框架与指标：
当前记忆评估采用专门的指标，超越传统NLP性能标准，关注记忆功能的细致表现。有效性指标包括信息存储和利用的准确率、Recall@5（前五条检索相关信息的比例）等。效率指标关注检索和利用信息的时延、适应新信息的耗时等。综合性基准如LongMemEval评估信息提取、时序推理、多会话推理、知识更新和回避能力，发现主流商用助手在长时交互中准确率下降约30%。自动化评估框架和面向情节记忆的基准也已提出，但发现GPT-4、Claude、Llama等前沿模型在处理复杂情节记忆和空间-时间关联任务时依然存在明显挑战。大部分评测集中于事实性信息和语义关系，对于能体现时间、空间等情境的情节记忆评估仍较为欠缺。

现有局限与挑战：
评估方法尚缺乏统一、严格的标准，特别是在训练数据外泛化能力方面。针对长期记忆的标准化基准缺失，难以全面覆盖人类智能所需的多维度记忆能力。架构本身的限制使得多数LLM智能体仍以无状态方式运行，缺乏真实的知识持续积累和生命周期内的记忆评估，阻碍了类人水平的持续学习能力测量。此外，实际应用中信息相关性动态变化，实验室条件下的评测难以反映复杂场景下的真实表现。在隔离记忆性能和其他智能能力时也难以分辨具体问题根源。

优化策略与未来方向：
记忆优化包括生物启发的遗忘机制（如Ebbinghaus遗忘曲线）、自反性反馈（如Reflexion系统）等，提升记忆利用率与效率。分层结构和自适应交叉注意机制有助于高效组织与检索信息。未来研究方向包括混合记忆框架（结合参数化与非参数化）、自动化反馈机制、多智能体协同记忆、知识图谱增强元数据学习、领域专用架构、认知启发的离线巩固优化以及参数高效的记忆更新方法。这些方向有望推动记忆增强型LLM向更类人、更高效的智能体发展，应用于长期规划、真实决策和多智能体协作等复杂场景。

Tool-Integrated Reasoning

工具集成推理将语言模型从被动的文本生成器，转变为能够主动与世界交互的智能体，实现对工具的动态调用和环境操控。这一实现方式突破了模型自身的局限，通过函数调用机制、集成推理框架和复杂的环境交互能力，让模型能够利用外部工具，获取实时和领域特定的信息，解决复杂问题。
![[Screenshot 2025-08-06 at 14.33.10.png]]

Function Calling Mechanisms

函数调用机制将大语言模型从单纯的文本生成器转变为具备交互能力的智能体。通过结构化输出和函数抽象，模型可以调用外部工具，访问实时和领域特定的信息，解决复杂问题。

发展历程：

早期由Toolformer自监督API学习起步，推动了ReAct的“思考-行动-观察”循环，并发展出如Gorilla、ToolLLM、RestGPT等专业框架，OpenAI也推动了JSON标准化。

技术实现：

主要包括微调（通过大量API数据训练，能力稳定但资源消耗大）和提示工程（灵活高效但不够稳定），如“Reverse Chain”方法能通过提示实现API操作。
核心流程涵盖意图识别、函数选择、参数映射、函数执行和响应生成。现代实现依赖结构化输出与外部程序交互，涉及多种接口（如数字系统、草稿板、用户交互、其他LLM、开发者代码），需处理工具选择、参数制定和结果解析等复杂操作。

训练与数据体系：

训练方法从基础提示到多任务学习，采用合成数据与人工标注相结合，如ToolLLM和Granite-208-FunctionCalling。
数据生成策略包括环境合成、分层验证、格式检验、语义校验等，强调高质量数据。
工具选择的提升依赖无关增强、函数屏蔽、工具混合等数据处理技术。
自我改进算法（如JOSH、TTPA）减少外部监督，通过稀疏奖励和错误驱动优化提升能力。

评测体系：

评测基准涵盖API-Bank、StableToolBench、NesTools、ToolHop等，覆盖单工具到多工具推理任务。

Tool-Integrated Reasoning

工具集成推理（Tool-Integrated Reasoning, TIR） 是一种让大语言模型能力跃升的关键技术，突破了模型知识过时、计算不准、推理浅显等局限。它通过在推理过程中动态调用外部工具，实现模型与外部世界的实时互动。

核心特征：

推理与工具协同：模型不仅依赖自身知识，还能将复杂问题分解为子任务，利用专门工具精确完成每一步。
自主选择与适应：模型可自主选择合适工具，解释中间结果，并根据反馈动态调整推理路径。

主要实现方式：

基于提示的方法：通过精心设计的指令，无需额外训练，引导模型自动分解并执行问题（如将数学题转为可执行代码）。
有监督微调：通过模仿学习训练模型使用工具（如ToRA系统结合自然语言与计算库和符号求解器）。
强化学习方法：通过奖励机制优化工具使用策略，虽提升最终正确率，但存在对外部工具过度依赖的风险。

系统范式演进：

从单工具系统（如PAL、Toolformer）到多工具协调（如ReAct、Chameleon、AutoTools、CoA），再到自主智能体（Agent-based frameworks），形成了推理链与行动链自然结合、高度自适应的智能体。

应用与评测：

涉及搜索、计算、知识问答、API、多模态、语言处理、交互环境、领域专用等多类工具。
专用评测体系（如MCP-RADAR、GTA benchmark）通过多维度指标和真实场景，系统评估模型的工具集成推理能力。

实际意义：

工具集成推理让模型逐步具备分解复杂任务、动态调用外部资源、实时反馈调整的能力，推动AI向更智能、更实用的人类助手演进。

Agent-Environment Interaction

强化学习驱动工具集成：通过强化学习，模型可自主探索和优化工具的使用策略。与传统基于提示或有监督微调的方法相比，强化学习模型在数学推理等任务中的表现更优，训练效率更高，显著提升了推理能力和工具使用的灵活性。

信息检索增强推理系统：如Search-R1框架，模型在多步推理中能动态决策何时检索、生成什么查询，利用特殊标记将推理与检索行为有机结合，实现更高效的信息利用和推理过程。

多轮与自定义工具调用：新一代框架（如VisTA）通过强化学习让视觉智能体能动态选择、组合多种工具，提升复杂任务处理能力。ReVeal实现了自进化代码智能体，通过反复生成和验证不断优化代码。在多模态领域，VideoAgent等系统通过视觉-语言模型实现对视频等复杂信息的理解与检索。

系统评测与实际应用：

MCP-RADAR：采用客观指标和雷达图等可视化手段，多维度评估模型在软件工程、数学推理和通用问题解决等领域的工具集成能力。
GTA基准集：通过真实人类查询、多类别工具和多模态输入，揭示当前大模型与人类水平之间的显著差距，为模型优化提供方向。

多智能体协作与任务分解：函数调用机制推动了多智能体系统（MAS）的发展。多个大模型智能体可协同分工，通过工具协调、信息共享和角色自适应，实现复杂任务的分解与高效处理。高级多智能体系统采用精细的调度和分工机制，将大任务拆解为多个可并行执行的子任务，根据上下文和反馈动态调整智能体分配，有效提升整体智能水平和任务完成效率。

Multi-Agent Systems

多智能体系统（Multi-Agent Systems） 是协作智能的顶峰，多个自主智能体通过协调与沟通，解决单一智能体无法完成的复杂问题。其实现依赖于先进的通信协议、编排机制和协调策略，确保不同类型智能体间的无缝协作。
![[Screenshot 2025-08-06 at 14.40.23.png]]

Communication Protocols

智能体通信协议起源于20世纪90年代初的知识共享运动，通过标准化语言奠定了自主实体协作的基础，解决了互操作性难题。KQML作为早期的智能体通信语言，采用多层架构（内容层、消息层、通信层），并引入言语行为理论。FIPA ACL在此基础上，利用模态逻辑、可行性前提和理性效果，进一步丰富了语义框架。

互操作性需求推动了语义级通信能力的发展，使不同平台的智能体能够无需复杂预设就互相理解。为应对日益增长的异构性，协议采用本体论和语义网技术进行形式化，同时加入安全机制以防通信漏洞。

当代标准化协议生态：

MCP：类似“AI的USB-C”，通过JSON-RPC接口标准化智能体与环境的交互，支持多领域的服务调用，但也带来新的安全风险。
A2A：通过基于能力的Agent Card和JSON生命周期模型，实现点对点通信、任务委托和安全协作。
ACP：提供通用RESTful HTTP通信，支持多部分消息、同步/异步交互，并具备发现、委托和编排功能。
ANP：利用W3C去中心化标识符和JSON-LD图，扩展智能体在开放互联网的互操作能力，AGNTCY与Agora等新协议也在不断丰富标准体系。

通信架构包括分层组织、去中心化点对点网络、集中式协调和共享消息池等多种形式，配合顺序交换、通用语言接口和消息传递策略，以支持多智能体系统的高效协作和复杂任务处理。

Orchestration Mechanisms

核心作用：编排机制是多智能体系统的协调基础，负责智能体选择、上下文分发与交互流程控制，实现人机/机机高效协作。

主要编排策略

前置编排（a priori orchestration）：在任务执行前，根据用户输入及智能体能力，预先选择最合适的智能体分配任务。
后置编排（posterior orchestration）：将输入分发给多个智能体，利用信心度和响应质量评估（如3S编排器）来选择最终结果。
功能型编排：从智能体池中选择适当智能体，管理上下文信息和对话流程。
组件型编排：根据用户指令动态生成逻辑序列，通常通过大语言模型（LLM）自动生成嵌入编排逻辑的工作流。

新兴编排范式

傀儡师式（puppeteer-style）集中编排：由中心化的编排器依据任务状态动态调度各智能体，通常结合强化学习实现自适应优先级调整。
序列化编排（serialized orchestration）：将复杂协作图（collaboration graph）按拓扑顺序展开成推理序列，编排器根据全局状态和任务规范逐步选择单一智能体执行。

上下文管理和环境适应

全局状态维护：编排系统通过全局状态跟踪分布式节点上的任务执行进度，为每个智能体提供必要的上下文，确保各子任务与整体流程的一致性。
会话与事件驱动协作：通过基于会话的上下文细化，限定协作范围，支持智能体的动态加入、退出和输出流管理。
灵活适应与任务分解：系统可根据任务变化灵活调整通信模式和智能体分工，支持复杂任务的动态分解和适配。

Coordination Strategies

核心作用
协调策略关注多智能体系统中各智能体间的有效协作、任务分配及全局一致性维护，是实现复杂任务多方协同的关键。其目标在于解决多智能体协作过程中事务完整性、上下文管理、异常检测、依赖透明性等难题，提升系统的健壮性与实际应用表现。

主要挑战与问题

事务完整性问题：当前常用框架（如LangGraph、AutoGen、CAMEL等）在事务支持上存在不足，缺乏原子性保障和补偿机制，易导致部分失败后系统状态不一致。
上下文管理难题：智能体在长期任务中难以持续维护和共享情景（episodic）及语义（semantic）上下文，导致信息丢失或理解偏差。
异常检测复杂性：中心化编排结构带来运行时路径的高度不确定性，异常检测需动态重建交互图，难以通过路径匹配直接发现问题。
依赖关系不透明：智能体间可能基于不一致的假设或数据进行操作，如无额外约束和验证，易引发协作混乱和目标偏移。
环境和模型误差：外部配置错误与大模型幻觉（hallucination）会干扰智能体系统，且恢复机制不足时易导致目标严重偏离。

应对策略与代表性方法

独立验证与异常检测：通过引入独立验证机制和异常检测，提升系统一致性和鲁棒性。例如SagaLLM框架支持事务保障与独立校验，强化上下文信息的持久性。
动态修正与自适应交互：如CodeAct框架将Python解释器与LLM智能体结合，实现代码动作执行和多轮交互中的动态修改与恢复。
依赖约束与规划一致性：通过推理编排意图和全局规划连贯性，提升依赖关系透明度，减少冲突和误操作。

应用与性能影响

医疗领域：通过上下文切换机制和专家智能体分工，支持信息检索、问答和决策辅助等复杂任务。
网络管理：采用上下文感知的智能体分派机制，实现多接入点的高效管理和动态服务选择。
企业流程与仿真：平台如AgentSimulator支持流程行为发现和仿真，结合全局控制流和局部自主行为实现复杂业务交互。
性能提升：自动化编排与能力在线学习可有效提升系统整体效能，降低人工选择难度，适应实际环境下的多样化需求。

Evaluation

上下文工程系统的评估面临前所未有的挑战，超越了传统语言模型的评测范式。这类系统通常具备复杂、多组件的架构和动态、依赖上下文的行为，需要全面的评估框架来诊断组件层面的性能、任务表现和整体系统的健壮性。

组件的异质性（如检索机制、记忆系统、推理链、多智能体协作等）要求评估方法能够同时衡量单个组件的有效性和系统层面的涌现行为。

Evaluation Frameworks and Methodologies

介绍了评估上下文工程中单一组件和集成系统的综合方法。

Component-Level Assessment

内在评估：侧重于单一组件（如prompt工程）的独立表现，评测其能力及失效模式。

Prompt组件评测：通过语义相似度指标、响应质量评价和在多样输入下的鲁棒性测试，衡量prompt设计的有效性。当前结果显示prompt易脆弱，需要更高级的评估体系来考察其情境适应性与自适应优化能力。
长上下文处理评测：需用专门指标测试模型的信息保留、位置偏置与推理连贯性。例如“needle in a haystack”测试模型能否从长文本中检索关键信息，多文档推理则评估跨源信息整合能力。长序列处理面临O(n²)的计算瓶颈。
自情境化机制评测：包括元学习能力、适应速度与多轮一致性分析。诸如Self-Refine、Reflexion、N-CRITICS等自我优化框架显著提升表现，GPT-4通过自我迭代提升约20%。
结构化与关系型数据集成评测：检验知识图谱遍历、表格理解和数据库查询能力，但当前在结构化推理上仍有评测不足和高质量数据集缺失的问题。

System-Level Integration Assessment

外在评估：关注下游任务的端到端表现，全面考察系统在问答、推理和实际应用中的实用性。

系统级评估要点：需识别组件间的涌现效应（即集成后效果超越单体）和干扰效应（即集成后效果下降）。
检索增强生成（RAG）评测：结合检索和生成效果的多维指标，涵盖准确率、召回率、相关性和事实性。Agentic RAG需额外评估任务分解、计划选择和记忆增强规划能力。
记忆系统评测：缺乏标准化框架，现有长文本记忆测评（如LongMemEval）涵盖信息提取、时序推理、多会话推理和知识更新，但商业AI助手在长对话中表现下降显著。
工具集成推理系统评测：要求覆盖工具选择、参数提取、执行成功率与错误恢复。已有如BFCL、T-Eval、API-Bank等专门榜单用于多轮和嵌套工具调用测试。
多智能体系统评测：关注通信效率、协调能力和集体产出，涵盖协议遵循、任务分解准确性和协作行为评测。当前框架在事务完整性上不足，且多依赖LLM自我校验而缺少独立验证。

Benchmark Datasets and Evaluation Paradigms

本节综述了用于评估情境工程系统性能的专业基准和评测范式。

Foundational Component Benchmarks

长上下文处理评测：采用专门的基准测试套件，评估模型在超长序列中的信息保留、推理与综合能力。当前的基准测试面临显著的计算复杂性挑战，尤其是在自注意力机制O(n²)扩展下，超长序列的内存消耗成为瓶颈。位置插值与扩展技术需要更复杂的评测体系，既要考察计算效率，也要评测推理质量。诸如LongMamba等先进架构和专用位置编码方法展现出在长序列处理上的潜力，但在长距离连贯性上仍有难题有待解决。滑动注意力等内存高效实现方式的发展也需对应的全面基准来衡量计算可行性与任务表现。
结构化与关系数据集成评测：涵盖多样的知识表示格式和推理模式。现有评测框架在结构化推理能力把握上有限，高质量结构化训练数据的开发仍是挑战。评测需关注顺序信息与结构信息冲突情境，特别是在这两种信息类型交错时，模型的处理能力。

System Implementation Benchmarks

检索增强生成（RAG）评测：利用全面的基准套件，覆盖多样的检索与生成场景。模块化RAG架构通过检索、增强、生成等专用模块，实现对各组件及其交互的细粒度评测。图增强RAG（如GraphRAG、LightRAG）在复杂推理场景下表现提升，但其评测需考虑图遍历与多跳推理的复杂性。
Agentic RAG评测：聚焦于复杂任务分解、计划选择和迭代优化能力的评估，实时与流式RAG应用则需额外关注在动态信息下的延迟与准确性。
工具集成推理系统评测：应用多种基准测试，涵盖不同工具使用场景和复杂度。Berkeley Function Calling Leaderboard（BFCL）提供2000个测试案例，分步和端到端评测工具调用的准确率、通过率及胜率。T-Eval用于多轮和嵌套工具调用场景，StableToolBench关注API不稳定性，NesTools和ToolHop分别评测嵌套调用和多跳工具使用能力。
Web智能体评测：如WebArena、Mind2Web覆盖137个网站数千任务，揭示当前LLM在复杂Web交互中的不足。VideoWebArena进一步扩展到多模态智能体，Deep Research Bench与DeepShop则面向研究与购物等专用场景。
多智能体系统评测：采用专用框架，评估多智能体的协调、通信及集体智能。但当前大多系统在复杂流程的事务完整性上存在挑战，多数缺乏对部分失败的补偿机制。编排评测需考察上下文管理、协调策略有效性，以及在不同操作条件下的系统一致性。

典型榜WebArena榜单（表格摘要）：列出了多种模型在WebArena平台的成功率和开源状态。例如，IBM CUGA成功率为61.7%，OpenAI Operator为58.1%，Jace.AI为57.1%，ScribeAgent+GPT-4o为53.0%，其余依次降低。

Evaluation Challenges and Emerging Paradigms

Methodological Limitations and Biases

传统评测指标的不足：如BLEU、ROUGE、困惑度（perplexity）等静态指标，原本为简单文本生成任务设计，无法捕捉情境工程系统中复杂推理链、多步交互和系统涌现行为等动态特性。

归因难题：多组件系统高度复杂、相互依赖，导致难以隔离失效点和追溯根因，传统方法在计算和方法论上均难以胜任。
未来需求：评测指标需超越任务成功率，关注推理过程的质量和健壮性，特别是在需要组合泛化与创新问题求解的情境下。
记忆系统评测挑战：缺乏标准化基准，且LLM的无状态特性加剧了评测难度。当前自动化记忆测试常受到阶段隔离问题影响，导致评测结果难以可靠。实际应用中，商用助手在长时交互中准确率下降高达30%，暴露出现有评测体系的严重不足，亟需可追踪记忆保真度的纵向评测框架。
工具推理系统评测：现有系统与人类能力差距大。例如GAIA基准下人类完成率92%，GPT-4仅15%。评测体系需能覆盖多工具协调、错误恢复和动态工具选择等复杂场景。

Emerging Evaluation Paradigms

自我优化/自我精炼评测：如Self-Refine、Reflexion、N-CRITICS等，采用多维度反馈和集成评测，支持多轮自我改进。GPT-4通过自我精炼可达约20%性能提升。未来挑战在于评估系统元学习能力，即不仅看是否能提升，更关注其自我优化的效率与稳健性。
多维反馈评测：融入正确性、相关性、清晰度、健壮性等多重维度，形成综合性评测。系统可通过自奖励机制实现自主进化和元学习评估，逐步发展复杂的自我评价标准。
批判性引导评测：引入专门的批判模型（critic models），对输出进行细粒度评价，涵盖推理质量、事实准确性与逻辑一致性，弥补传统指标无法动态适应多样任务和输出形式的不足。
编排与多智能体评测：如SagaLLM等框架，关注事务完整性、上下文管理、协调策略有效性等，适用于多智能体协作和复杂流程。

Safety and Robustness Assessment

安全导向评测：包括鲁棒性测试、对抗攻击抵抗力、价值对齐等，尤其关注自主智能体在长时间运行中的行为安全性。传统框架无法覆盖这些新型风险，需新的评测标准。
鲁棒性评测：评估系统在分布漂移、输入扰动和对抗环境下的表现。多智能体系统更需关注协作失败的级联效应，重视优雅降级、错误恢复和极端情境下维持功能的能力。未来还需评测系统对“未知未知”风险（新型、不可预见的失效）的弹性。
对齐性评测：检验系统是否持续表现出预期行为，优化价值一致性和有益结果。情境工程系统因动态适应和复杂交互，长期对齐评测成为难点。
未来趋势：评测体系需从静态基准转向动态、整体性评估，涵盖合成泛化能力和长期自主性。应发展可随AI能力共同演化的“活体”基准，并引入社会技术和经济维度，确保系统在真实世界应用下既强大又可靠、有效且符合人类价值。

Future Directions and Open Challenges

上下文工程正处于关键转折点，基础技术进步与新兴应用需求相互交汇，带来了前所未有的创新机遇，同时也暴露出一系列亟需持续研究的根本性挑战。

未来发展方向和开放性挑战主要包括：

系统集成复杂度显著提升：从单一组件到集成系统架构，研究难度和复杂性呈指数增长。
迫切需要跨学科方法：未来发展需要理论计算机科学、实际系统工程和领域知识的紧密结合，跨领域协作成为解决复杂问题的关键。
创新与挑战并存：在技术创新的同时，必须正视并解决由更高复杂性和实际应用需求带来的深层次难题。

Foundational Research Challenges

本节系统探讨了推进情境工程（Context Engineering）发展所需解决的核心理论和计算挑战，内容分为以下几个子方向：

7.1.1 理论基础与统一框架（Theoretical Foundations and Unified Frameworks）

当前情境工程领域缺乏统一的理论基础和数学框架，无法系统性地连接不同技术路线或为系统设计提供原则性指导。这是制约系统性进步和最优系统开发的关键难题。亟需对情境工程系统进行信息论分析，包括上下文资源的最优分配策略、信息冗余量化和压缩极限等。现有方法缺乏确定最优上下文组合的原则性手段，导致资源利用低效和性能受损。
需要建立上下文效率的数学边界，开发上下文选择的优化算法，并建立能够预测不同上下文配置下系统行为的理论框架。对系统组成的理解需要形式化建模，明确各组件如何在集成架构中相互作用、干扰或协作，并通过理论建模和实证研究揭示复杂行为的涌现。多智能体编排也需构建预测协作行为和集体效能的理论模型。

7.1.2 规模规律与计算效率（Scaling Laws and Computational Efficiency）

目前大模型在理解（comprehension）和生成（generation）能力上存在明显不对称，尤其在长文本输出的连贯性、事实一致性和复杂规划方面表现有限。需深入研究这些局限是由架构、训练方式还是计算边界导致。
长文本生成能力需要新的规划机制以维持大范围输出的连贯和准确。传统Transformer架构难以胜任超长序列任务，虽然State Space Models（如Mamba）等新模型在长序处理和线性扩展上有潜力，但整体性能仍需提升。
现有注意力机制计算复杂度为O(n²)，对超长序列的资源需求极高，亟需更高效的滑动注意力、内存高效实现等架构创新。同时需要改进位置编码和扩展技术以支持更长序列的语义一致性。

7.1.3 多模态集成与表示（Multi-Modal Integration and Representation）

多模态信息（如文本、图像、视频、结构化数据）的集成在表征学习、跨模态推理和统一架构上面临重大挑战。当前多采用模态专用编码器，缺乏充分的跨模态交互，难以捕获复杂的模态间依赖关系。
除了常规感知模态，情境工程还需处理如图结构这类更抽象的信息。如何高效对齐图结构与语言模型的语义嵌入、有效表达图拓扑是核心难题。现有尝试包括结构对齐、图转自然语言描述等方法，但在结构精度和可扩展性上各有利弊。
时序推理要求架构能够追踪对象持久性、因果关系及动态变化。实际多模态交互场景（如WebAgent）暴露出当前系统在多步多模态任务中的明显短板。
跨模态一致性与对齐也是持续难题，当前多模态智能体在复杂研究、跨源信息综合等任务上表现有限，需更高水平的对齐和一致性保障机制。

Technical Innovation Opportunities

本节探讨了情境工程未来在技术层面的主要创新方向，分为如下几个子章节：

7.2.1 下一代架构（Next-Generation Architectures）

重点关注超越传统Transformer模型的新型架构，例如State Space Models（如LongMamba），以实现更高效的长序列处理和更优的内存利用。
探索专业化的位置编码方法和参数高效架构，为超长序列扩展提供支持，并提高计算可行性。
发展更先进的记忆增强架构，提升长期记忆的组织、层次结构和自适应管理能力。MemoryBank等机制展示了将遗忘曲线原理应用于记忆持久性的可能性，但当前LLM的无状态特性仍是挑战。
推进模块化和组合式架构，通过专用模块实现检索、增强、生成等功能的灵活组合，提升系统的可扩展性和优化空间。例如，GraphRAG、LightRAG等将结构化知识与神经处理结合。

7.2.2 高级推理与规划（Advanced Reasoning and Planning）

加强系统在因果推理、反事实推理、时序推理和类比推理等复杂推理能力，提升多证据整合和逻辑一致性维护。
推动多步规划和任务分解能力，使系统能制定、执行和动态调整复杂任务计划，实现更强的自主性和适应性。Agentic RAG系统展现了任务分解和反思机制，但跨阶段连贯性和动态适应仍需提升。
推进工具集成推理，实现AI系统对外部工具的动态调用、参数提取和多工具协同。GAIA基准测试显示当前模型与人类在工具集成推理上的巨大差距，表明自动化工具选择和错误恢复等方面仍需突破。

7.2.3 复杂上下文组织与图问题求解（Complex Context Organization and Solving Graph Problems）

图推理是情境工程的核心难题之一，需要系统能处理结构化的复杂关系和网络。现有方法包括专用架构（如GraphGPT、GraphWiz）和文本化描述方法（如few-shot prompting、链式推理等）。
专用架构通过对齐图结构与语言模型，实现结构信息与文本内容的双向转换和联合推理。GraphWiz等方法在图任务上显著优于传统模型。
文本化编码方法通过自然语言描述图结构，提升解释性但面临结构精度和大规模拓扑适应难题。新兴的混合方法（如InstructGraph、GraphAdapter）尝试整合结构化和文本化的优点。
未来方向包括基于联想网络的广泛信息组织方式，以实现复杂实体关系的自动发现和推理。

7.2.4 智能上下文组装与优化（Intelligent Context Assembly and Optimization）

自动化、智能化的上下文组装与优化是关键前沿，需要发展上下文优化算法、自适应选择策略和自动组装机制，以提升系统性能和适应性。
自我精炼（Self-Refine）、反思（Reflexion）、N-CRITICS等框架通过多轮自我优化显著提升性能，但在自适应优化和元学习等方面仍有提升空间。
多维反馈机制（如正确性、相关性、清晰度、鲁棒性）可用于优化上下文组装过程，实现系统的自主进化和持续优化，需进一步研究最优适应速度、稳定性与可塑性权衡等问题。

Application-Driven Research Directions

本节聚焦于情境工程在实际行业和应用场景中的关键研究课题，主要包括以下几个方面：

7.3.1 领域化与专用化（Domain Adaptation and Specialization）

针对医疗、教育、科研、法律等不同行业，提出需开发更强领域适配能力的大模型与系统，支持知识注入、迁移学习和领域微调等技术，以满足知识深度、推理严谨性和安全合规等高要求。
强调建立细粒度、多维度的专用评测体系，全面覆盖事实准确性、推理合规性、数据隐私与安全等需求。
推动系统具备高效的领域知识集成、快速知识更新和持续自适应能力，实现知识的准确性与实时性兼顾。

7.3.2 大规模多智能体协作（Large-Scale Multi-Agent Collaboration）

研究分布式多智能体系统的通信协议、任务分解、事务一致性和协作策略，提升大规模智能体的高效协作与弹性容错能力。
强调多智能体系统在复杂流程和异常情况下的事务完整性、错误检测与自动恢复，支持智能体间的上下文共享和协调，最大化集体效能。
提出开发新型评测体系，量化大规模协作的效率、健壮性和任务完成度，适应真实世界的复杂分布环境。

7.3.3 人机协作与集成（Human-AI Collaboration and Integration）

探索人类与AI智能体的混合团队机制，包括任务分配、角色分工、交互频次和协作策略，以提升整体协作效率和用户体验。
强化AI系统的决策透明度、过程可解释性和行为可控性，建立用户信任和安全保障，防止AI系统产生不可控或错误决策。
推动AI与人共同参与创新设计、科研辅助和复杂决策等任务，促进新型人机共创和共生应用模式的形成。

Deployment and Societal Impact

本节围绕情境工程在实际大规模应用和社会层面所需关注的核心问题展开，主要包括：

7.4.1 可扩展性与生产部署（Scalability and Production Deployment）

着重强调系统架构的可扩展性、可靠性与可维护性，确保AI系统能够应对大规模用户和高并发场景。
涉及跨平台部署、资源调度优化、多租户隔离等工程问题，以提升生产环境下的性能和经济效益。
强调持续学习、无缝升级和长期演化机制，支持系统在实际应用中的持续优化和快速迭代。

7.4.2 安全、鲁棒性与对齐性（Safety, Robustness, and Alignment）

要求系统具备良好的鲁棒性，能够抵御对抗攻击、输入扰动与环境变化，强化异常检测、优雅降级和弹性恢复。
强调模型行为需要与人类价值观及社会规范长期对齐，防止目标偏移、意外行为和价值错位。
推动全生命周期的安全评测与防护，覆盖从数据输入到模型推理及输出交互的各个环节。

7.4.3 伦理与法律责任（Ethics and Legal Responsibility）

强调消除偏见、保护隐私和数据安全，防止模型在决策过程中引入歧视或侵犯用户权益。
要建立问责、追溯和合规机制，确保AI应用符合法律法规和社会责任要求。
鼓励透明、可解释的模型设计，提升用户信任和社会接受度。

Conclusion

本章回顾了情境工程（Context Engineering）作为一门正式学科的首次全面梳理，系统性地阐述了其在为大语言模型（LLMs）设计、优化和管理信息上下文中的关键作用。
通过分析1400余篇相关论文，确立了情境工程在外部知识集成、持久记忆维护和动态环境交互等高级AI系统中的基础性地位。
主要贡献在于提出了一个统一的分类框架，将情境工程技术归纳为基础组件（包括上下文检索生成、处理和管理）和系统实现（如检索增强生成、记忆系统、工具集成推理及多智能体系统）。该框架展示了核心技术能力如何集成到复杂架构中以满足现实需求。
通过系统分析，得出以下关键见解：
1. 发现了LLMs在理解复杂上下文与生成高质量输出之间存在本质性差距，这是领域面临的重大挑战之一。
2. 识别出越来越多的集成模式，即多种技术协同组合产生超越单一组件的能力。
3. 强调模块化和可组合性趋势，使体系结构更灵活、适用于多样化应用，同时保持系统一致性。
4. 指出传统评测方法难以全面评价集成多组件、具有自适应行为并横跨长时间尺度的系统，呼吁建立更完善的评测体系。
5. 展望未来研究方向，包括高效长上下文处理的架构、智能上下文组装系统和多智能体协作机制等，同时需解决理论、技术和实际部署中的统一理论、扩展性和安全等挑战。
未来，情境工程将日益成为AI发展的核心，特别是在构建复杂多组件系统时。该领域的研究将依赖于跨学科合作，涵盖计算机科学、认知科学、语言学和领域知识。
随着LLMs持续发展，情境信息对AI系统性能的决定性作用将持续成为人工智能领域的核心议题。
本章为情境工程提供了当前全貌和未来路线图，确立了其独立学科地位，并为负责任的上下文感知AI系统创新与发展提供了基础。