当前位置: 首页 > web >正文

【大模型系列篇】开启AI自主科研新时代:WebThinker开源深度研究框架

WebThinker 是一个开源的深度研究框架,由中国人民大学自然语言处理实验室(RUC-NLPIR)推出。WebThinker 使大型推理模型(LRM) 能够在他们的思考过程中自主搜索 、 深入探索网页和起草研究报告。与通常使用具有预定义工作流的检索增强生成 (RAG) 的现有开源深度搜索代理不同,它一个面向复杂问题解决与科研写作的推理智能体,赋予了大型推理模型自主执行网络搜索、深度网页探索、内容整合与科研报告撰写的端到端能力,旨在解决传统模型依赖静态知识库、难以处理复杂知识密集型任务的局限性。

项目地址:https://github.com/RUC-NLPIR/WebThinker

系统架构

两种模式

  • 问题求解模式(Problem-Solving Mode) :为推理模型配备了由 Deep Web Explorer 支持的搜索工具,支持彻底的 Web 探索以检索相关信息,以解决复杂的实际问题。模型聚焦获取最终答案,搜索与推理交织进行。
  • 报告撰写模式(Report Generation Mode) :模型围绕研究主题持续探索、撰写、调整,最终输出完整的报告。在搜索推理内核基础上,添加了报告撰写相关的工具。推理模型可以实时撰写报告,并根据新搜索结果动态修订内容。

特点

1、推理内核 + 搜索机制:深度网页探索器(Deep Web Explorer)

模型能够自主判断当前任务是否需要补充外部知识。当触发搜索时,系统会启动“深度网页探索器”(Deep Web Explorer)来分析网页内容、点击相关链接并进行深度搜索。在收集到足够的信息后,探索器会将其整合回主推理过程中。

深度网页探索器(Deep Web Explorer)是 WebThinker 的核心创新,区别于传统“搜索+摘要”系统,该探索器具备:

  • 多层网页点击能力 :不局限于搜索首页,而是通过链接跳转,深入文档结构,模拟人类的信息钻取行为。
  • 搜索路径控制与决策机制 :根据目标问题不断评估“是否已足够”、“是否需换搜索关键词”,实现类人式自主调节搜索策略。
  • 返回高质摘要 :当信息收集达到需求阈值后,系统压缩为模型可消费的摘要结果用于继续推理。

2、Think-Search-and-Draft:边思考,边搜索,边写作的科研报告生成

自主思考-搜索-写作机制(Autonomous Think-Search-and-Draft),模型在撰写研究报告时拥有以下能力:

  • 章节写作 :根据收集到的知识,系统可独立生成某一节的内容。
  • 内容审查与编辑 :允许用户随时审查当前写作内容;系统可自动重写不准确或结构不佳的部分。
  • 多轮修订能力 :模型会反复搜索、修订,不断优化已有内容,实现内容持续进化。

3、自我提升训练机制:基于 RL 的训练策略

开发了基于 RL 的训练策略,迭代合成工具使用偏好数据,并应用在线 DPO 培训来增强 LRM 的工具利用能力。这是一种自我提升训练机制(Self-Improvement)。该训练机制希望模型能够回顾过往的推理-搜索路径,识别哪些路径最有效,并提炼“成功的推理轨迹”用于进一步学习,针对写作任务优化写作逻辑和节奏。

后续计划

作为一个让推理模型在思考过程中自主调用工具的新范式,WebThinker展现出了其潜力。未来,仍有不少可以继续探索的方向:

  • 多模态推理能力 :扩展到图像、视频等多模态内容的深度研究,来利用网络中的多模态信息。
  • 工具学习与扩展 :通过自我提升机制,不断优化工具使用策略,以及扩展更多工具。
  • GUI网页探索 :通过GUI网页探索能力,让模型能够更好地理解和操作网页界面,实现更复杂的交互任务。

整体性能

如上所示,WebThinker 在知识密集型复杂推理基准(GPQA、GAIA、WebWalkerQA、HLE)和用于报告生成的开放式推理任务上始终优于竞争对手的方法。WebThinker-32B 以 QwQ-32B 作为主干推理模型,在所有任务中都实现了卓越的性能。

实验评估

实验采用模型 QwQ-32B 作为基座,并在以下数据集上进行测试:

Complex Reasoning Benchmarks - 复杂推理基准

  • GPQA (博士级自然科学)
  • GAIA (困难信息获取)
  • WebWalkerQA (网页导航问答)
  • HLE (跨学科高难度推理题) 

Scientific Report Evaluation - 科学报告评估

  • Reasoning-v1-20m (开放式推理问题-报告生成) 

评测使用 Qwen2.5-72B-instruct 担任评测模型。问答任务使用 Pass@1 作为正确率评估方式。研究报告则从四个维度评分:报告的整体全面性、各章节讨论的深度、事实准确性、逻辑连贯性。

http://www.xdnf.cn/news/4240.html

相关文章:

  • 还原TF卡或U盘
  • 18个国内wordpress主题推荐
  • 京东:外卖上线新功能,但仅限今天
  • NGINX `ngx_http_auth_request_module` 模块详解基于子请求的认证授权方案
  • 已经写好论文的AI率降低
  • 7系列 之 IO_FIFO
  • 大学之大:隆德大学2025.5.6
  • 分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
  • Nmap 工具的详细使用教程
  • StableDiffusionWebUI的AI绘图AI绘视频详细使用教程+报错排坑
  • 遥控器网络推拉流技术要点!
  • 开源向量大模型推荐:2025年技术选型指南
  • 单例模式都有哪些?有什么区别?
  • 疗愈服务预约小程序源码介绍
  • ApplicationRunner执行顺序问题
  • 【硬核数学】0. 序章:万丈高楼平地起,AI数学筑基之旅《从零构建机器学习、深度学习到LLM的数学认知》
  • Java后端开发day42--IO流(二)--字符集字符流
  • 智能学习空间的范式革新:基于AI驱动的自习室系统架构与应用研究
  • 实验三 数据查询
  • Spring AI快速入门
  • QT生成保存 Excel 文件的默认路径,导出的文件后缀自动加(1)(2)等等
  • 如何管理两个Git账户
  • 即开即用,封装 Flask 项目为 exe 文件实操步骤
  • QQ相册下载工具
  • 宁德时代区块链+数字孪生专利解析:去中心化身份认证重构产业安全底座
  • NoUniqueKey问题和Regular join介绍
  • Linux USB Gadget | 框架 / 复合设备实践 / Configfs 配置
  • CSS分栏布局
  • 【T2I】PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis
  • vue2+element实现Table表格嵌套输入框、选择器、日期选择器、表单弹出窗组件的行内编辑功能