【大模型系列篇】开启AI自主科研新时代:WebThinker开源深度研究框架
WebThinker 是一个开源的深度研究框架,由中国人民大学自然语言处理实验室(RUC-NLPIR)推出。WebThinker 使大型推理模型(LRM) 能够在他们的思考过程中自主搜索 、 深入探索网页和起草研究报告。与通常使用具有预定义工作流的检索增强生成 (RAG) 的现有开源深度搜索代理不同,它一个面向复杂问题解决与科研写作的推理智能体,赋予了大型推理模型自主执行网络搜索、深度网页探索、内容整合与科研报告撰写的端到端能力,旨在解决传统模型依赖静态知识库、难以处理复杂知识密集型任务的局限性。
项目地址:https://github.com/RUC-NLPIR/WebThinker
系统架构
两种模式
- 问题求解模式(Problem-Solving Mode) :为推理模型配备了由 Deep Web Explorer 支持的搜索工具,支持彻底的 Web 探索以检索相关信息,以解决复杂的实际问题。模型聚焦获取最终答案,搜索与推理交织进行。
- 报告撰写模式(Report Generation Mode) :模型围绕研究主题持续探索、撰写、调整,最终输出完整的报告。在搜索推理内核基础上,添加了报告撰写相关的工具。推理模型可以实时撰写报告,并根据新搜索结果动态修订内容。
特点
1、推理内核 + 搜索机制:深度网页探索器(Deep Web Explorer)
模型能够自主判断当前任务是否需要补充外部知识。当触发搜索时,系统会启动“深度网页探索器”(Deep Web Explorer)来分析网页内容、点击相关链接并进行深度搜索。在收集到足够的信息后,探索器会将其整合回主推理过程中。
深度网页探索器(Deep Web Explorer)是 WebThinker 的核心创新,区别于传统“搜索+摘要”系统,该探索器具备:
- 多层网页点击能力 :不局限于搜索首页,而是通过链接跳转,深入文档结构,模拟人类的信息钻取行为。
- 搜索路径控制与决策机制 :根据目标问题不断评估“是否已足够”、“是否需换搜索关键词”,实现类人式自主调节搜索策略。
- 返回高质摘要 :当信息收集达到需求阈值后,系统压缩为模型可消费的摘要结果用于继续推理。
2、Think-Search-and-Draft:边思考,边搜索,边写作的科研报告生成
自主思考-搜索-写作机制(Autonomous Think-Search-and-Draft),模型在撰写研究报告时拥有以下能力:
- 章节写作 :根据收集到的知识,系统可独立生成某一节的内容。
- 内容审查与编辑 :允许用户随时审查当前写作内容;系统可自动重写不准确或结构不佳的部分。
- 多轮修订能力 :模型会反复搜索、修订,不断优化已有内容,实现内容持续进化。
3、自我提升训练机制:基于 RL 的训练策略
开发了基于 RL 的训练策略,迭代合成工具使用偏好数据,并应用在线 DPO 培训来增强 LRM 的工具利用能力。这是一种自我提升训练机制(Self-Improvement)。该训练机制希望模型能够回顾过往的推理-搜索路径,识别哪些路径最有效,并提炼“成功的推理轨迹”用于进一步学习,针对写作任务优化写作逻辑和节奏。
后续计划
作为一个让推理模型在思考过程中自主调用工具的新范式,WebThinker展现出了其潜力。未来,仍有不少可以继续探索的方向:
- 多模态推理能力 :扩展到图像、视频等多模态内容的深度研究,来利用网络中的多模态信息。
- 工具学习与扩展 :通过自我提升机制,不断优化工具使用策略,以及扩展更多工具。
- GUI网页探索 :通过GUI网页探索能力,让模型能够更好地理解和操作网页界面,实现更复杂的交互任务。
整体性能
如上所示,WebThinker 在知识密集型复杂推理基准(GPQA、GAIA、WebWalkerQA、HLE)和用于报告生成的开放式推理任务上始终优于竞争对手的方法。WebThinker-32B 以 QwQ-32B 作为主干推理模型,在所有任务中都实现了卓越的性能。
实验评估
实验采用模型 QwQ-32B 作为基座,并在以下数据集上进行测试:
Complex Reasoning Benchmarks - 复杂推理基准
- GPQA (博士级自然科学)
- GAIA (困难信息获取)
- WebWalkerQA (网页导航问答)
- HLE (跨学科高难度推理题)
Scientific Report Evaluation - 科学报告评估
- Reasoning-v1-20m (开放式推理问题-报告生成)
评测使用 Qwen2.5-72B-instruct 担任评测模型。问答任务使用 Pass@1 作为正确率评估方式。研究报告则从四个维度评分:报告的整体全面性、各章节讨论的深度、事实准确性、逻辑连贯性。