深度拆解Deep Research系统架构与路线图
将大语言模型作为一种研究工具,大约经历了三个阶段:
早期模型(比如 GPT-3 )主要处理孤立的任务,包括问答、机器翻译。随后,与外部工具的集成使 WebGPT 等模型能够自主浏览网页并合成来自不同来源的信息。
最近半年,一种能够自主研究的复杂 AI 代理迅速涌现——Deep Research,包括海外的 Gemini、OpenAI、Grok、Perplexity,以及国内的 Manus、MiniMax、Kimi 等都推出了Deep Research 产品。
近期,利物浦大学联合华为诺亚方舟实验室和牛津大学等顶尖学府发布了一份针对 Deep Research Agents 的系统性综述,首次将 Deep Research 的技术路线、架构设计等进行了深度的梳理与对比。
本文选取了部分内容,针对 Deep Research 的五大核心组件——搜索引擎集成、工具使用能力、工作流架构、调优方法以及非参数化持续学习进行了详细分析。
1. 搜索引擎的两种技术路径:API 与浏览器
为了增强处理不断发展的任务的推理深度和准确性,Deep Research 使用搜索引擎来获取最新信息,目前主要有两种技术路径:
一是基于 API 的搜索引擎,可以与结构化数据源交互,例如搜索引擎 API 或科学数据库 API。
比如,谷歌 Gemini Deep Research 通过 Google Search API 和 arXiv API,对数百至数千个网页进行大规模检索,从而显著扩展其信息覆盖范围;Grok DeepSearch 宣称通过新闻媒体源、维基百科 API 和 X 的原生接口持续索引,以及根据需要激活查询驱动的代理来生成有针对性的子查询并实时获取相关页面,从而确保其知识库的新鲜度和深度。
二是基于浏览器的搜索引擎,通过模拟人类与网页的交互,促进实时提取动态或非结构化内容。
Manus 就是其典型代表,其浏览器代理会为每个研究会话运行一个沙箱环境(Sandbox),程序化地打开新标签页、发出搜索查询、点击结果链接、滚动页面直到达到内容阈值、在必要时填写表单元素、执行页面内 JavaScript 以显示延迟加载部分以及下载文件或 PDF 以供本地分析。
OpenAI Deep Research、Grok DeepSearch 以及 Gemini Deep Research 虽然并没有公开其浏览功能的实现细节,但它们能够处理交互式小部件、动态渲染内容和多步骤导航的能力强烈表明,它们也在后台采用了类似的无头浏览器框架。在开源的 Deep Research 研究中,AutoAgent、DeepResearcher 也采用了基于浏览器的搜索引擎。
两种方式各有优劣。基于 API 调用的搜索引擎往往有更高的效率,但高度依赖内容源的开放性,它更适合谷歌这种本身就做搜索引擎的企业;基于浏览器的搜索引擎会像人类操作一样获取任何浏览器内的信息,但带来了更大的延迟与成本。在实际的应用中,两者可能会深度结合在一起使用。
2.工具使用:为代理赋能扩展功能
为了扩展在复杂研究任务中与外部环境互动的能力,特别是通过主动调用和处理各种工具和数据源,Deep Research 引入了三个核心工具:代码解释器、数据分析、多模态处理。现在,这些工具通常会通过模型上下文协议(MCP)的形式接入。
代码解释器使 Deep Research 能够在推理过程中执行脚本,使它们能够执行数据处理、算法验证和模型模拟。大多数 Deep Research 都嵌入了一个脚本执行环境,它们通常依赖于 Python 工具,来协调动态脚本编写、进行文献驱动的分析以及执行实时计算推理。
许多闭源的 Deep Research 都实现了数据分析功能,比如绘图、表格生成和统计分析,但大部分都没有披露技术细节。但开源产品提供了具体的案例,比如CoSearchAgent 在团队通信平台内整合了基于 SQL 的查询,智谱的 AutoGLM 从基于表格的网络界面直接提取和分析结构化数据集。
多模态处理和生成工具使 Deep Research 能够在统一的推理管道中整合、分析和生成异构数据(如文本、图像、音频和视频),从而丰富它们的上下文理解并扩大它们的输出范围。只有少数成熟的商业和开源项目,例如 Manus、OWL、AutoAgent、AutoGLM、OpenAI、Gemini、Perplexity 和 Grok DeepSearch,支持这一功能,而大多数学术原型由于计算成本高昂而未实现该功能。
3. 架构和工作流
(1)静态与动态工作流程
静态工作流通过手动预定义的任务管道,将研究过程分解为顺序子任务,适合结构化研究场景。例如,AI Scientist 通过构思、实验和报告阶段自动化科学发现;Agent Laboratory 划分文献综述、实验和综合阶段;AgentRxiv 通过代理间协作共享中间结果,实现知识重用。
动态工作流支持自适应任务规划,允许代理根据反馈和上下文动态调整任务结构。它利用自动化规划、迭代细化和互动式任务分配,使任务能实时演变,展现出卓越的泛化能力和适应性,非常适合复杂、知识密集型的 AI 研究任务。
(2)动态工作流:规划策略
为了增强 Deep Research 对演变的用户需求和上下文的适应性,现有研究提出了三种基于 LLM 的规划策略,每种策略在是否以及如何与用户互动以澄清意图方面有所不同:
-
Planning-Only:直接根据初始用户提示生成任务计划,而不主动进一步澄清意图,这是大多数现有的 Deep Research 代理所采用的方法,包括 Grok、H2O 和 Manus。
-
Intent-to-Planning:意图到规划策略,通过有针对性的问题在规划之前主动澄清用户意图,然后根据用户额外的回应生成量身定制的任务序列;这种方法被 OpenAI Deep Research 所采用。
-
Unified Intent-Planning,统一意图规划方法综合了这些方法,从初始提示生成初步计划,并与用户互动以确认或修订提出的计划。Gemini Deep Research 是这种策略的代表,有效地利用了用户引导式细化的优势。
(3)动态工作流:单代理与多代理
动态工作流的 Deep Research 代理可以根据代理架构分为单代理和多代理框架。
动态单代理系统将规划、工具调用和执行整合到一个统一的 LRM 中,将任务管理简化为一个连贯的认知循环。单代理架构自主地根据演变的上下文细化任务计划并调用适当的工具,通常无需明确的代理间协调。单代理系统允许在整个工作流上直接进行端到端的强化学习(RL)优化,促进推理、规划和工具调用的更顺畅、更连贯的整合。例如,Agent-R1、ReSearch 和 Search-R1 等系统通过明确推理、行动和反思的迭代循环,与 ReAct 框架一致。
动态多代理系统利用多个专门代理协作执行由自适应规划策略生成和动态分配的子任务。这些系统通常采用分层或集中式规划机制,其中协调代理根据实时反馈和重新规划持续地分配和重新分配任务。代表性的框架包括 OpenManus 和 Manus,都采用了分层规划者 - 工具调用者架构。
(4)用于长上下文优化的记忆机制
尽管最近 LLM 的进展显著扩大了上下文窗口大小,但当前的限制仍然限制了涉及极长上下文的任务。为了解决这些挑战,Deep Research 系统实施了各种优化,用于处理扩展上下文。
这些优化可以分为以下三种主要策略:(i)扩展上下文窗口长度;(ii)压缩中间步骤;(iii)利用外部结构化存储用于临时结果。
扩展上下文窗口长度是最直观有效的办法,以谷歌的 Gemini 模型为例,它支持长达一百万个标记的上下文窗口,并辅以 RAG 设置。尽管这种方法直观有效,但往往会导致高昂的计算成本,并且在实际部署中可能会导致资源利用效率低下。
另一种策略是压缩或总结中间推理步骤,显著减少模型处理的标记数量,从而提高效率和输出质量。例如,AI Scientist 和 CycleResearcher 等代表性框架在工作流阶段之间传递总结的中间结果。然而,这种方法的潜在缺点是可能会丢失详细信息,从而影响后续推理的准确性。
利用外部结构化存储来保存和检索历史信息,使 Deep Research 代理能够在上下文窗口的限制之外持续且高效地存储大量过去上下文,提高记忆容量、检索速度和语义相关性。流行的开源框架,如 Manus、OWL、Open Manus 和 Avatar,利用外部文件系统存储中间结果和历史数据以便后续检索。WebThinker 和 AutoAgent 等框架开发了自我管理模块,利用向量数据库支持可扩展的记忆存储和基于相似性的快速查找。
4. 参数调优:从SFT微调到强化学习
提示词工程虽然可以直接利用预训练的 LLM 的能力,无需昂贵的微调或额外训练即可实现复杂功能,但从根本上受到基础 LLM 的内在泛化能力的限制。为了应对这些限制,目前主要有两种方式:一是基于 SFT 的微调,二是强化学习。
(1)基于 SFT 的优化
Open-RAG 是 SFT 微调的早期里程碑,通过引入多样化的监督信号(如检索标记、相关性标记等)来增强数据构建,并利用对抗性训练提升模型过滤不相关信息的能力,进而提高检索准确性和下游任务质量。
在此基础上,AUTO-RAG 进一步增强了 LLM 的自主迭代检索能力,构建基于推理的指令数据集,使模型能够自主规划检索查询并进行多轮互动,动态细化检索策略以收集足够证据后再合成最终答案。
DeepRAG 则提出了二叉树搜索机制,递归生成子查询并构建多轮检索轨迹,平衡内部知识与外部检索展开,提高搜索效率并减少冗余查询。
为减少对人工构建的 SFT 数据集的依赖,近期研究开发了基于拒绝采样的微调策略,如 CoRAG 从标准问答数据集中提取中间检索链,实现逐步检索增强和动态子查询重新制定,而不仅限于监督最终输出。
(2)基于强化学习的优化
SFT 方法虽增强了动态检索规划、结构化信息综合和工具利用,但仍局限于离线、静态检索管道。相比之下,强化学习提供了一种更适应性的解决方案,用于在线查询生成和工具调用。
强化学习代理通过实时奖励信号学习,能够制定有效的搜索查询并确定工具调用的最佳时机,解决了合成演示数据和分布偏移的限制,使代理在开放性研究环境中具有更强的稳健性和适应性。
在 Deep Research 系统中,RL 实现有三种关键模式:
1)工业系统(如 Gemini Deep Research 和 Grok DeepSearch)采用专有的 RL 实现,细节未公开;
2)学术方法倾向于使用 GRPO 和 Reinforce++ 进行模块化 RL 优化,奖励设计透明;
3)新兴混合系统(如 SimpleDeepSearcher)结合了基于过程的奖励与跨多个问答数据集的多任务训练。Qwen2.5 和 LLaMA3 模型家族是 RL 优化的首选基础架构。
在策略优化算法方面,GRPO 在更广泛的奖励分布覆盖、增强探索能力和更快的 KL 散度稳定化方面优于传统的 PPO。
5. 非参数化持续学习
基于SFT与强化学习的 Deep Research 面临的一个根本挑战是,如何在不重新训练模型的前提下持续改进能力。对此,非参数化持续学习方法提供了一种可扩展的替代方案,通过优化外部记忆、工作流和工具配置来完善能力,而非更新内部权重,以最小的数据和计算开销实现有效的在线适应,非常适合复杂架构的 Deep Research。
基于案例推理(CBR)的方法是主流。CBR 使代理能从外部案例库动态检索、适应和重用结构化问题解决轨迹,促进在线上下文适应和任务级泛化。例如,DS-Agent 引入 CBR 到自动化数据科学工作流,采用近似在线检索;LAM 将 CBR 应用于功能测试生成,结合轨迹级检索和模块化系统设计;Agent K 通过奖励策略引导动态案例检索和重用,实现自我进化;AgentRxiv 扩展这一范式,使代理能协作共享和访问集中化的研究输出库,类似于在线更新的 arXiv 平台。这些方法使代理在不修改模型参数的情况下增强能力和知识。
与基于提示的方法相比,非参数化方法能动态检索和适应结构化轨迹,促进持续任务泛化。CBR 在轨迹级别运行,强调推理中心的记忆组织,如 Kaggle Grandmaster Agent 展示了通过 LLM 实现专家级结构化问题解决的能力。此外,自我进化也可通过动态基础设施适应实现,如 Alita 根据任务需求和环境信号动态配置 MCP 服务器。
这些自我进化范式为 LLM 驱动的深度研究代理系统提供了巨大潜力,解决了参数化方法的高数据和计算需求,是未来研究和实际部署的有吸引力的方向。