当前位置: 首页 > web >正文

DeepSearch代表工作

介绍下今年以来深度搜索相关的一些论文~

文章目录

  • Search-o1
    • 简述
    • 方法
    • 实验
  • Search-R1
    • 简介
    • 方法
      • 带搜索引擎的强化学习
      • 多轮搜索调用的生成
      • 训练模板
      • 奖励建模
    • 实验
  • R1-Searcher
    • 简介
    • 方法
      • 数据选择
      • 两阶段的强化学习
      • 训练算法
  • ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
    • 方法
  • 总结

Search-o1

Search-o1: Agentic Search-Enhanced Large Reasoning Models

https://github.com/sunnynexus/Search-o1

简述

  • 背景
    LRM通常会有一个比较长的思考过程,生成很长的推理链,逐步地生成过程和最终答案。这种方式虽然提高了推理能力,但是常面临知识不足的问题,在推理链中产生不确定性,导致推理错误。论文中统计了不同方法生成的内容中“不确定性词”的频率,LRM和RAG中不确定性都很高。
  • 动机
    虽然已经有RAG了,但检索到的文档通常篇幅较长且包含冗余信息,直接将其输入到LRM可能会干扰原有的推理连贯性,甚至引入噪声。且RAG是单次检索,不一定能够为LRM提供足够的信息。
  • 方法
    提出了Search-o1,引入Agentic RAG机制和Reason-in-Documents模块来增强LRM的知识能力。使LRM在推理过程中动态地根据需要进检索。

方法

Search-o1的两个核心模块:

  • Agentic RAG。和朴素的RAG不同,可以执行多次,引导模型在缺少相关知识时主动进行search。
  • Reason-in-Documents。检索到的文档通常太长且冗余信息太多,模型也难以理解其中的内容。为了有效利用检索的的知识,在每次检索后会先分析检索到的文档,只把相关的信息放入推理链中。该模块是独立于模型的推理链的。

整体方法的框架如下图c所示:

  1. 相比普通的推理,增加了search过,避免模型乱猜,这就是论文中的Reason with Agentic RAG。这一模块使模型在需要外部知识时进行search。
  2. 在此基础上,增加了Reason-In-Documents,避免无用信息对推理过程的干扰,得到最终的Search-o1。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Search-o1的目标是为每个问题q生成一个全面的解决方案,包括逻辑推理链R和最终答案a,整个过程可以形式化为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从实现来看,这两个模块都是通过prompt实现的:

  • 模型生成时如果遇到不确定的知识点,则生成带查询的query,格式为<|begin_search_query|>query<|end_search_query|>。检测到该符号则提取query进行搜索。
  • 简化搜索到的文档。通过一个单独的模块,以prompt的方式分析检索到的文档,提取关键信息,然后以<|begin_search_result|>提炼后的检索内容<|end_search_result|>将其拼接会主推理链中继续生成。

可以看出,整个流程主要还是通过prompt实现的,Search-o1的batch推理伪代码如下所示:

http://www.xdnf.cn/news/6692.html

相关文章:

  • 时钟产生的公共模块示例
  • Java 泛型与类型擦除:为什么解析对象时能保留泛型信息?
  • 随笔:hhhhh
  • Redisson 四大核心机制实现原理详解
  • 涂色不踩雷:如何优雅解决 LeetCode 栅栏涂色问题
  • Vue3项目使用ElDrawer后select方法不生效
  • 突围“百机大战”,云轴科技ZStack智塔获IDC中国AI大模型一体机推荐品牌
  • 第五章:Linux用户管理
  • 【无标题】威灏光电哲讯科技MES项目启动会圆满举行
  • leetcode 57. Insert Interval
  • Node.js 同步加载问题详解:原理、危害与优化策略
  • Spring Cloud动态配置刷新:@RefreshScope与@Component的协同机制解析
  • Gitee DevOps:中国企业数字化转型的加速引擎
  • UNiAPP地区选择
  • 解码国际数字影像产业园:成都高品质办公楼宇
  • OpenCV阈值处理完全指南:从基础到高级应用
  • 5G行业专网部署费用详解:投资回报如何最大化?
  • Zephyr OS Nordic芯片的Flash 操作
  • 提权脚本Powerup命令备忘单
  • 从小区到商场再到校园,AI智能分析网关V4高空抛物检测方案全场景护航
  • Spring Boot 封装 MinIO 工具
  • DDS(数据分发服务) 和 P2P(点对点网络) 的详细对比
  • [QMT量化交易小白入门]-五十四、核心资产ETF轮动目前年化只有74%了,在过滤掉当天止损,当天买入的之后
  • Java 21 + Spring Boot 3.5:AI驱动的高性能框架实战
  • require/exports 或 import/export的联系和区别,各自的使用场景
  • 基于Rust语言的Rocket框架和Sqlx库开发WebAPI项目记录(二)
  • Expo项目在本地打包apk的问题
  • Vue主题色切换实现方案(CSS 变量 + 类名切换)
  • 【前端】[vue3] [uni-app]使用 vantUI 框架
  • 使用 OpenCV 将图像中标记特定颜色区域