当前位置：首页 > news >正文

通过强化学习让大模型自适应开启思考模式

news 2025/7/14 2:40:34

论文标题

AdaptThink: Reasoning Models Can Learn When to Think

论文地址

https://arxiv.org/pdf/2505.13417

代码地址

https://github.com/THU-KEG/AdaptThink

作者背景

清华大学

动机

思考模式提高了大模型处理复杂问题的能力，但最近有不少工作报告了许多简单任务上，繁琐的思考不仅开销更大，反而还可能降低回答准确性。于是有人利用空或简单的思考标签，将思考模型改造成了非思考模型，提高了简单任务上的准确率

<think> Okay, I think I have finished thinking. </think>

于是我们很自然地想到，可以动态控制大模型的思考长度，从而更高效地应对不同难度的问题。之前也介绍过一些相关的工作，但都是通过超参数或规则来改变思维链，而本文旨在让大模型学会自行判断启用何种思考模式，以达到最优的性能与效率

Uncert-CoT: 计算不确定性判断是否启用CoT
如何精准控制大模型的推理深度

本文方法

本文提出AdaptThink，核心思想是让推理模型能够根据问题的难度自适应地选择“Thinking”（思考）或“NoThinking”（不思考）的回答模式

一、优化目标

考虑到在推理效率上，无思考模式相较于有思考模式有着显著的优势，一个理想的选择策略应该在整体性能不下降的情况下，倾向于选择无思考模式。具体地，使用无KL项的PPO风格优化目标：
在这里插入图片描述

其中，clip是裁剪函数，用于提高训练流程的稳定性；A(x, y)是优势函数：

1(y1=)是一个指示函数，当y为非思考模式开头时为1，思考模式下则为0
δ是超参数，用于控制非思考模式的优势程度
R(x,y) 是奖励函数，表示回答准确性
R_bar_ref(x)是参考模型平均奖励，用于对策略模型奖励分数的归一化

二、重要性采样

由于我们是在推理模型上进行对齐训练，初始阶段模型响应都是思考模式的结果，所以使用了重要性采样技术。定义一个新分布：

在这里插入图片描述

在t=1的冷启动阶段，我们强制让模型推理的第一个token为或W_start，前者是类似于之前介绍的NoThinking方法（通过空的思考标签让模型跳过思考），后者是一个常用于开启长思考的单词（例如 Alright）
当冷启动结束 t>1 时，则回归原始模型的采样

实验结果

作者在1.5B和7B的R1-distill-Qwen模型上进行了实验，结果表明在3种数学题基准上，AdaptThink 显著减少了推理成本，同时进一步提高了模型的准确性
在这里插入图片描述

查看全文

http://www.xdnf.cn/news/558703.html

101个α因子#9

C++（3）

idea如何让文件夹分层显示，而不是圆点分割

SpringBoot整合LangChain4J

深入探讨 Java 中的函数式编程

9-社区动态（Stack布局）

探秘大数据架构：解锁高效数据处理的密码

SpringBoot3+Vue3(1)-后端请求头校验，jwt退出登录，mybaits实现数据库用户校验

拦截指定注解（FeignClient），补偿重试

java异常处理

7-Zip软件下载与使用攻略：如何使用7z格式解压缩更高效？

MySQL 8.0 OCP 1Z0-908 题目解析(9)

Redis--Redis命令详解

linux安装JDK8

Python Day27 学习

leetcode 33. Search in Rotated Sorted Array

vue图片懒加载指令实现

指针深入理解（二）

在表格中使用AI解析通信协议

Vue3 父子组件传值, 跨组件传值,传函数

进程——概念及状态

算法训练之分治（快速排序）

浏览器播放 WebRTC 视频流

动机

本文方法

一、优化目标

二、重要性采样

实验结果

相关文章：