当前位置: 首页 > news >正文

ChatRex RexSeek RexThinker: 结合多模态大语言模型的目标检测模型构建

主页:http://qingkeai.online/

原文:ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建


随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展,人工智能的视觉理解能力正步入一个全新的阶段。相比传统只依赖图像的目标检测模型,如今的研究正逐渐转向“语言+图像”的联合建模,希望借助语言模型的推理能力,让 AI 不仅能“看见”,更能“看懂”。

而 ChatRex、RexSeek 和 RexThinker,这三者分别代表着目标检测任务从自然语言理解、到指代消解、再到多模态推理能力的三次进化。

ChatRex

图片

论文:ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
链接:https://arxiv.org/abs/2411.18363
代码:https://github.com/IDEA-Research/ChatRex

在传统目标检测中,用户与模型的交互极其有限,大多数系统只能检测预设类别,且依赖于大量标注训练数据。这使得系统很难适应开放世界场景,比如用户希望找到“靠近沙发右边的蓝色水杯”时,模型往往束手无策。

图片

ChatRex 的核心思路是将传统的视觉检测器与多模态语言模型进行“功能解耦”,前者继续完成高效的候选框检测任务,而后者则专注于理解用户的自然语言指令,并在所有候选框中筛选出最符合语义的目标。通过这种分工协作,ChatRex 既保留了传统检测模型的效率优势,又融入了语言理解与推理能力,使得用户可以通过自由对话的方式描述目标,而模型能够精准“听懂”和“看懂”你说的内容。

图片

不过,ChatRex 的能力也有其边界。当面对涉及复杂上下文或者指代关系的描述时,模型容易出现理解错误。

RexSeek

图片

论文:Referring to Any Person
链接:https://arxiv.org/abs/2503.08507
代码:https://github.com/IDEA-Research/RexSeek

现实中的对话远不是一轮一问一答那么简单。当用户说出“帮我选出她刚刚看的那本书”,系统不仅需要知道“她”是谁,还要理解“刚刚”指的是哪一段交互,“那本书”又是哪一本。这种带有语境和指代的目标表达,是传统检测系统几乎无法应对的。

图片

RexSeek 正是在这个背景下诞生的。在 ChatRex 的基础上,RexSeek加入了专门的指代消解机制和多轮上下文建模能力。RexSeek 能够追踪历史对话记录,识别其中的实体与关系,并通过跨模态语义对齐,正确解析像“它”、“那边那个”、“她手上的”这类模糊表达。它的强大在于不仅处理静态图像中的目标定位,还能在多轮对话中保持一致的理解能力。

图片

RexSeek 的引入,标志着目标检测不再是孤立的视觉任务,而是融入了语言交互的动态系统。它让系统开始具备“语义连续性”的能力,也为实现更高级别的智能交互打下了基础。

RexThinker

图片

论文:Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
链接:https://arxiv.org/abs/2506.04034
代码:https://github.com/IDEA-Research/Rex-Thinker

当目标检测任务从对话理解迈向逻辑推理时,系统不再只是找到用户描述的物体,而是要理解描述背后的意图、关系甚至时间链条。比如,用户说:“那个她刚刚拿起来又放下的白色盒子”,模型就必须推理出“她是谁”、“刚刚是何时”、“拿起又放下的动作在哪一帧发生”,这些信息往往散布在语言和视觉数据中多个位置。

图片

RexThinker 应运而生,它不仅具备 RexSeek 的语义追踪能力,更加入了类“思维链(Chain-of-Thought)”机制,通过多步推理构建出复杂的跨模态理解路径。在 RexThinker 中设计了视觉记忆缓存系统,能够保存过往交互中的目标状态,结合语言指令进行动态匹配。同时,它的注意力路由机制支持模型在多帧图像、多段描述之间灵活切换,真正实现了“类人类”的视觉理解过程。

图片

可以说,RexThinker 是一个初步具备认知能力的视觉 Agent。它不再只是响应用户命令的工具,而是一个可以与人类共同分析场景、解决问题的智能伙伴。

7月15日晚8点,青稞Talk 第63期,华南理工大学与IDEA 联合培养博士蒋擎,将直播分享《ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建》。

分享嘉宾

蒋擎,华南理工大学博士生,IDEA-CVR 实习生。其主要研究方向为开集目标检测,多模态大语言模型,代表工作包括 T-Rex2, Grounding DINO 1.5, DINOX 等。在 ICCV,ECCV,CVRP 等国际会议发表论文,致力于推进以物体为核心的通用感知系统。

主题提纲

ChatRex & RexSeek & RexThinker:结合多模态大语言模型的目标检测模型构建

1、目标检测发展现状与困境
2、ChatRex:融合传统检测器与多模态大语言模型
3、RexSeek:开创下一代指代目标检测新范式
4、RexThinker:探索思维链驱动的指代检测新架构

直播时间

7月15日20:00 - 21:00

往期推荐

一起来聊聊:强化学习是否真的能提升大模型的推理能力?

直播预告!大模型推理强化学习中的熵机制

直播预告!世界模型版《模拟人生》:面向人、机器人与社会的开放世界模拟平台

Fast-dLLM技术解析:分块KV缓存与置信度感知并行解码技术


都看到这了,点个关注再走吧🧐~

http://www.xdnf.cn/news/1109485.html

相关文章:

  • vue3+vit+vue-router路由,侧边栏菜单,面包屑导航设置层级结构
  • 商业机密保卫战:如何让离职员工带不走的客户资源?
  • 六年级数学知识边界总结思考-上册
  • Rust Web 全栈开发(五):使用 sqlx 连接 MySQL 数据库
  • 【赵渝强老师】国产数据库TiDB的代理路由:TiProxy
  • 服务器怎么跑Python项目?
  • 【代码随想录】刷题笔记——哈希表篇
  • MySQL 中图标字符存储问题探究:使用外挂法,毕业论文——仙盟创梦IDE
  • shiro550反序列化漏洞复现(附带docker源)
  • 【Docker基础】Dockerfile指令速览:基础常用指令详解
  • Leetcode百题斩-二分搜索
  • 使用langgraph 构建RAG 智能问答代理
  • springboot AOP面向切面编程
  • 连接池深度解析:原理、实现与最佳实践
  • Hap包引用的Hsp报签名错误怎么解决
  • 使用ESM3蛋白质语言模型进行快速大规模结构预测
  • 每日一SQL 【销售分析 III】
  • Python问题记录`No module named ‘matplotlib‘` 问题解决方案
  • 基于SEP3203微处理器的嵌入式最小硬件系统设计
  • 基于 Python 的数据分析技术综述
  • 剑指offer56_数组中唯一只出现一次的数字
  • 【MogDB】一种基于ctid分片并发查询以提升大表查询性能的方式
  • 【go】gopath、GO111MODULE=on作用
  • Javaweb- 11 MVC架构模式
  • JDK官方文档下载教程
  • 计算机视觉 之 经典模型汇总
  • 快速排序递归和非递归方法的简单介绍
  • 牛客:HJ19 简单错误记录[华为机考][字符串]
  • phpstudy搭建pikachu靶场
  • CCS-MSPM0G3507-2-定时器中断