当前位置：首页 > ds >正文

[2025CVPR]DeepVideo-R1：基于难度感知回归GRPO的视频强化微调框架详解

ds 2025/7/17 3:15:44

突破视频大语言模型推理瓶颈，在多个视频基准上实现SOTA性能

一、核心问题与创新亮点

1.1 GRPO在视频任务中的两大挑战

安全措施依赖问题
GRPO使用min和clip函数限制策略更新幅度，导致：
- 梯度抑制：当新旧策略差异过大时梯度消失
- 收敛困难：策略无法充分优化

# 传统GRPO的梯度抑制区域
ratio = new_prob / old_prob
clipped_ratio = torch.clamp(ratio, 1-ε, 1+ε)
loss = -torch.min(ratio * advantage, clipped_ratio * advantage)  # 梯度不连续区域

优势消失问题
当样本难度极端（过易/过难）时：
- 组内奖励趋同：σr≈0
- 优势值归零：A^(i)=σrR−μr→0
- 学习信号消失

1.2 DeepVideo-R1双创新机制

查看全文

http://www.xdnf.cn/news/13465.html

黄晓军所长：造血干细胞移植后晚期效应及患者健康相关生存质量

SQL进阶之旅 Day 23：事务隔离级别与性能优化

CentOS 安装Python 3教程

38 C 语言字符串搜索与分割函数详解：strchr、strrchr、strpbrk、strstr、strcspn、strtok

现代汽车在巴黎和得克萨斯州宣传其混合动力汽车为「两全其美之选」

CppCon 2015 学习:Extreme Type Safety with Opaque Typedefs

从走线到互连：优化高速信号路径设计的快速指南

vue 监听页面滚动

carla与ros坐标变换

iOS 抖音首页头部滑动标签的实现

【DAY45】 Tensorboard使用介绍

《高等数学》（同济大学·第7版）第三章第五节“函数的极值与最大值最小值“

github.com 链接127.0.0.1

征程 6E/M｜如何解决量化部署时 mul 与 bool 类型数据交互的问题

《为什么 String 是 final 的？Java 字符串池机制全面解析》

MySql简述

基于GeoTools求解GeoTIFF的最大最小值方法

搞了两天的win7批处理脚本问题

SaaS（软件即服务）和 PaaS（平台即服务）的定义及区别（服务对象不同、管理责任边界、典型应用场景）

GO自带日志库log包解释

【二】12.关于中断

APM32芯得 EP.10 | 基于APM32F411控制的一个软开关电路设计分享

yolo格式分割标签可视化，coco-seg数据集

6个月Python学习计划 Day 19 - 模块与包的实战拆分

【Java】在 Spring Boot 中集成 Spring Security + JWT 实现基于 Token 的身份认证

使用Spring Boot Actuator构建用户应用

发布一个angular的npm包（包含多个模块）

Nuclei PoC 编写详解：从入门到实践

PostgreSQL 数据库技术峰会重庆站回顾｜IvorySQL 开源实践与社区生态

python打卡day50

一、核心问题与创新亮点

1.1 GRPO在视频任务中的两大挑战

1.2 DeepVideo-R1双创新机制

相关文章：