当前位置: 首页 > news >正文

从 TTS 到 TTRL:无标签数据强化学习探索与展望

原文:https://mp.weixin.qq.com/s/LkMt6FNTFsRyw79fY4LKdQ

在预训练 Scaling Law之后,测试时扩展(Test-time Scaling, TTS)已成为提升大模型推理能力的关键。OpenAI o1与DeepSeek R1等模型通过强化学习(RL)进行推理的范式,充分展现了TTS的潜力。

然而,推理模型的性能上限仍深受基础模型(其架构与预训练数据)的制约。当前,标注数据的匮乏限制RL效果。如何在无显式标签的条件下进行强化学习,成为进一步释放推理模型潜能的核心

在最新的研究中,来自清华大学和上海人工智能实验室的研究员提出了一种新方法 —— 测试时强化学习(Test-Time Reinforcement Learning,TTRL),该方法能够在无标注数据上对 LLM 进行强化学习训练。

论文标题:TTRL: Test-Time Reinforcement Learning
论文地址:https://arxiv.org/abs/2504.16084
GitHub:https://github.com/PRIME-RL/TTRL
HuggingFace:https://huggingface.co/papers/2504.16084

TTRL的核心挑战在于推理过程中,如何在缺乏真实标签的情况下进行有效的奖励估计。研究员发现,TTS中的多数投票等常用策略能产生出乎意料的有效奖励信号,足以驱动RL训练。

TTRL 通过利用预训练模型中的先验知识,使 LLM 具备自我演化的能力。实验证明,TTRL 在多种任务和模型上都能持续提升性能:在仅使用未标注测试数据的情况下,TTRL 将 Qwen-2.5-Math-7B 在 AIME 2024 任务中的 pass@1 指标提升了约 159%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TTRL标志着向“经验时代”的RL迈出了初步探索,使模型得以在缺少人类标注的条件下实现自我探索与进化。展望未来,通过环境交互与多智能体协同,在真实任务中持续提升模型能力,将是“经验时代”强化学习发展的关键方向。

5月14日20:00点,青稞Talk第48期,TTRL 作者、清华大学博士生张开颜,将直播分享《从 TTS 到 TTRL:无标签数据强化学习探索与展望》。

本期Talk 张开颜博士将聚焦无标签数据上进行强化学习——即测试时强化学习(TTRL)的探索,探讨TTS与RL推理的关系,详述TTRL的方法与意义,并从协同与交互的视角展望RL经验时代。

分享嘉宾

张开颜,清华大学三年级博士生,导师为周伯文教授。研究方向为大语言模型测试时扩展(Test-time Scaling)、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。

主题提纲

从 TTS 到 TTRL:无标签数据强化学习探索与展望

1、强化学习推理与 TTS 的关系
2、TTRL:无标签数据的测试时强化学习方法
3、TTRL 的有效性及局限性讨论
4、协同与交互视角下的 RL 经验时代

直播时间

5月14日20:00 - 21:00

http://www.xdnf.cn/news/393049.html

相关文章:

  • CMOS内存的地址空间在主内存空间中吗?
  • Java Solon-MCP 实现 MCP 实践全解析:SSE 与 STDIO 通信模式详解
  • 深入剖析卷积神经网络之卷积层:原理、类型与优化策略
  • Baklib内容管理平台的核心组成是什么?
  • SpringBoot 自动装配原理 自定义一个 starter
  • Android架构模式推荐及分析和MVC架构模式制作一个简单的底部tab切换
  • 嵌入式学习笔记 - STM32 ADC,多重转换,内部参考电压,
  • linux基础操作4------(权限管理)
  • 产业带数据采集方案:1688 API 接口开发与实时数据解析实践
  • 【人工智能】 大模型训练的艺术:从数据到智能的飞跃
  • 【RP2350】香瓜树莓派RP2350之Delay延时
  • 基于SpringBoot的在线教育管理系统
  • spring
  • Python工具链UV整合环境管理
  • 国内外主流AI编程工具全方位对比分析(截至2025年5月)
  • SpringCloud Gateway知识点整理和全局过滤器实现
  • Python中,async和with结合使用,有什么好处?
  • redis数据结构-07(SADD、SREM、SMEMBERS)
  • c++STL-string的模拟实现
  • 谷歌与微软的AI战争:搜索、云服务与生态布局
  • 【Part 2安卓原生360°VR播放器开发实战】第四节|安卓VR播放器性能优化与设备适配
  • JVM调优-重启CPU飙高优化
  • SQlite数据库
  • 优化理赔数据同步机制:从4小时延迟降至15分钟
  • Day22 Kaggle泰坦尼克号训练实战
  • java加强 -List集合
  • LeetCode百题刷003(449周赛一二题)
  • 文件包含3
  • Qt 信号与槽及元对象系统
  • 判断两台设备是否在同一局域网内的具体方法