当前位置：首页 > web >正文

【大模型系列篇】开启AI自主科研新时代：WebThinker开源深度研究框架

web 2025/7/3 7:58:39

WebThinker 是一个开源的深度研究框架，由中国人民大学自然语言处理实验室（RUC-NLPIR）推出。WebThinker 使大型推理模型（LRM）能够在他们的思考过程中自主搜索、深入探索网页和起草研究报告。与通常使用具有预定义工作流的检索增强生成（RAG）的现有开源深度搜索代理不同，它一个面向复杂问题解决与科研写作的推理智能体，赋予了大型推理模型自主执行网络搜索、深度网页探索、内容整合与科研报告撰写的端到端能力，旨在解决传统模型依赖静态知识库、难以处理复杂知识密集型任务的局限性。

项目地址：https://github.com/RUC-NLPIR/WebThinker

系统架构

两种模式

问题求解模式（Problem-Solving Mode）：为推理模型配备了由 Deep Web Explorer 支持的搜索工具，支持彻底的 Web 探索以检索相关信息，以解决复杂的实际问题。模型聚焦获取最终答案，搜索与推理交织进行。
报告撰写模式（Report Generation Mode）：模型围绕研究主题持续探索、撰写、调整，最终输出完整的报告。在搜索推理内核基础上，添加了报告撰写相关的工具。推理模型可以实时撰写报告，并根据新搜索结果动态修订内容。

特点

1、推理内核 + 搜索机制：深度网页探索器（Deep Web Explorer）

模型能够自主判断当前任务是否需要补充外部知识。当触发搜索时，系统会启动“深度网页探索器”(Deep Web Explorer)来分析网页内容、点击相关链接并进行深度搜索。在收集到足够的信息后，探索器会将其整合回主推理过程中。

深度网页探索器（Deep Web Explorer）是 WebThinker 的核心创新，区别于传统“搜索+摘要”系统，该探索器具备：

多层网页点击能力：不局限于搜索首页，而是通过链接跳转，深入文档结构，模拟人类的信息钻取行为。
搜索路径控制与决策机制：根据目标问题不断评估“是否已足够”、“是否需换搜索关键词”，实现类人式自主调节搜索策略。
返回高质摘要：当信息收集达到需求阈值后，系统压缩为模型可消费的摘要结果用于继续推理。

2、Think-Search-and-Draft：边思考，边搜索，边写作的科研报告生成

自主思考-搜索-写作机制（Autonomous Think-Search-and-Draft），模型在撰写研究报告时拥有以下能力：

章节写作：根据收集到的知识，系统可独立生成某一节的内容。
内容审查与编辑：允许用户随时审查当前写作内容；系统可自动重写不准确或结构不佳的部分。
多轮修订能力：模型会反复搜索、修订，不断优化已有内容，实现内容持续进化。

3、自我提升训练机制：基于 RL 的训练策略

开发了基于 RL 的训练策略，迭代合成工具使用偏好数据，并应用在线 DPO 培训来增强 LRM 的工具利用能力。这是一种自我提升训练机制（Self-Improvement）。该训练机制希望模型能够回顾过往的推理-搜索路径，识别哪些路径最有效，并提炼“成功的推理轨迹”用于进一步学习，针对写作任务优化写作逻辑和节奏。