当前位置：首页 > news >正文

【论文笔记】【强化微调】T-GRPO：对视频数据进行强化微调

news 2025/6/22 6:41:57

tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]

1. 引述

在强化微调中，像 GRPO、DAPO 这样的方法都是对文本或者图片进行微调思考，所以这类微调方法不对时序信息做处理，因此无法很好的迁移到视频的强化微调中。

虽说目前有不少视频理解的工作，但是都没有加上强化微调的方法。也就是说，针对视频数据的强化微调很稀缺。

于是几个大学（港大+清华+中科大）联合搞了一个 Video-R1，提出 T-GRPO，实现对视频进行思考。

2. T-GRPO

T-GRPO 的核心思路如上图。

相比 GRPO，T-GRPO 的创新在于使大模型微调的时候，能关注时序信息。做法就是将视频数据复制一份，并将这一份的视频帧打乱，打乱视频帧的视频就没有时序信息了。

于是，设置奖励，使得模型在分析视频内容时，要求对有时序信息的视频帧分析正确，对乱序的视频帧分析错误。写成公式如下：（这里的 $\alpha$ 设置为 0.3）

$r_t = \begin{cases} \alpha, & \text{if } p \geq \tilde{p} \\ 0, & \text{otherwise} \end{cases}$

于是乎，T-GRPO 的核心奖励如下：

$R_i = \begin{cases} r_i + r_t, & \text{if } o_i \text{ is correct} \\ r_i, & \text{otherwise} \end{cases}$

其中， $r_i$ 代表问题是否回答正确。这个公式的意思就是说，如果有时序信息的视频帧的分析效果比乱序的更好，那么奖励就是 $r_i+r_t$

除此之外，还对模型输出长度通过奖励做了限制。如果输出长度少，还有额外奖励：

$R_i = \begin{cases} R_i + \omega, & \text{if } o_i \text{ is correct and } l_{\min} \leq \mathrm{len}(o_i) \leq l_{\max} \\ R_i, & \text{otherwise} \end{cases}$

最小长度 $l_\text{min}$ 被设置为 320，最大长度 $l_\text{max}$ 被设置为 512

查看全文

http://www.xdnf.cn/news/1062775.html

MySQL误删数据急救指南：基于Binlog日志的实战恢复详解

ESP32 ESP-IDF Ubuntu平台工具链的标准设置

山姆·奥特曼：从YC到OpenAI，硅谷创新之星的崛起

华为云Flexus+DeepSeek征文｜基于华为云一键部署Dify LLM 应用构建 PPT 生成助手的开发与实践

力扣-72.编辑距离

构建高效智能体系统：从简单到复杂，找到最适合你的解决方案

3D可视化数字孪生智能服务平台-物联网智控节能控、管、维一体化技术架构

Gartner《AI-Driven Methods for Cost-Efficiency》学习心得

类图：软件世界的“建筑蓝图”

【Python】List

结构体的嵌套问题

FPGA基础 -- Verilog 的属性（Attributes）

python+uniapp基于微信小程序的高校二手商品交易系统

Maven并行构建

饼图：数据可视化的“切蛋糕”艺术

大数据治理域——计算管理

windows清理系统备份文件夹WinSxS文件夹清理

大数据Hadoop集群搭建

mysql server层做了什么

nginx的下载与安装 mac

三种经典算法无人机三维路径规划对比（SMA、HHO、GWO三种算法），Matlab代码实现

【Python】Excel表格操作：ISBN转条形码

RPC常见问题回答

Qwen3 Embedding 结构-加载-训练看透模型设计哲学

windows查看占用端口的进程并杀死进程

phpstudy无法启动apache，80端口被占用，完美解决

1. 引述

2. T-GRPO

相关文章：