当前位置: 首页 > backend >正文

R1-Omni

一、Omni概述

Omni = 文本+视频+音频,全模态。

R1+Omni = 强化学习+全模态。

二、Omni举例-humanOmni

humanOmni:以人体姿态和人物交互为中心的全模态模型。

  • visual projector有3个,分别负责人脸标签、姿态检测、人和物交互。有点像moe。
  • text encoder 对visual projector进行fusion加权,通过文本区分不同的任务,对不同的视觉组件进行激活。

三、训练流程

冷启动 + Reinforcement Learning with Verifiable Reward (RLVR)

  • 冷启动:少量(带COT)样本的sft。为了确保强化学习训练(RLVR)的稳定性,R1-Omni采用了一种冷启动(Cold Start)策略,旨在通过少量标注数据为模型赋予初步的推理能力。
  • 可验证奖励的强化学习RLVR+组相对策略优化GRPO:与传统的基于人类反馈的强化学习(RLHF)不同,RLVR通过直接利用验证函数来评估输出,从而消除了中间奖励建模的需求。RLVR的核心在于简化奖励机制,同时确保与任务的内在正确性标准保持一致。
    • reward 函数:格式+正确性,总奖励公式为:R=Racc​+Rformat​
    • 准确率奖励(RaccRacc​:若情感标签与真实值一致,奖励为1,否则为0。
    • 格式奖励(RformatRformat​:若输出严格符合<think><answer>标签格式,奖励为1,否则为0。
  • 组相对策略优化(GRPO)

    与传统方法如近端策略优化(PPO)不同。GRPO通过直接比较生成的响应组来评估候选策略的相对质量,从而简化了训练过程。

    具体来说,GRPO首先为给定输入问题q生成G个不同的响应{o1​,o2​,…,oG​},然后根据预定义的奖励函数评估这些响应的奖励{r1​,r2​,…,rG​}。为了确定每个响应的相对质量,GRPO通过计算均值和标准差来归一化奖励。

四、其它

1.如何理解训练中仅对answer进行reward,大模型可以学习调整think内容?

①在sft冷启动时,我们让大模型监督学习的内容包含<think>和<answer>,可以让大模型迅速的get到我们想要表达的业务逻辑。

②在强化学习过程中,仅对answer进行reward,此时需要发挥语言大模型自身的逻辑能力,对answer调整的同时match到相应的think。

http://www.xdnf.cn/news/5139.html

相关文章:

  • 纷析云开源财务软件:企业敏捷迭代的生态化赋能平台
  • Science | “打结”的光
  • NextDenovo2.5.2安装与使用-生信工具53
  • Edwards爱德华STP泵软件用于操作和监控涡轮分子泵
  • openEuler会议回放服务正式上线,高效检索一键定位
  • Quorum协议原理与应用详解
  • 功能需求、业务需求、用户需求的区别与联系
  • vue知识点总结 依赖注入 动态组件 异步加载
  • 21.java反序列化-弹出控制面板
  • 按位段拼接十六进制
  • 算法专题五:位运算
  • 高级3D建模软件 Agisoft Metashape Professional 激活版资源免费下载
  • 学习黑客5 分钟读懂什么是 CVE?
  • 5 种距离算法总结!!
  • gd32 编译环境
  • 关于C#项目中 服务层使用接口的问题
  • 2023年03月青少年软件编程(图形化)等级考试四级编程题
  • GTS-400 系列运动控制器板卡介绍(十九)---PT 静态 FIFO
  • 辉芒微离线烧录器“文件格式错误”问题解决
  • 代采系统:定义、优势与未来趋势
  • 屎上雕花系列-2nd
  • Windows 忘记密码怎么办?
  • Java Stream API 深度解析:从入门到高阶应用
  • 关于VScode的调试
  • YOLO使用CableInspect-AD数据集实现输电线路缺陷检测
  • C++结构体介绍
  • C# NX二次开发:宏录制实战讲解(第一讲)
  • Jetpack Compose 状态管理:为什么 `by viewModel.state` 能自动刷新界面?
  • C语言实现三子棋
  • java volatile关键字