ChatRex RexSeek RexThinker: 结合多模态大语言模型的目标检测模型构建
主页:http://qingkeai.online/
原文:ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建
随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展,人工智能的视觉理解能力正步入一个全新的阶段。相比传统只依赖图像的目标检测模型,如今的研究正逐渐转向“语言+图像”的联合建模,希望借助语言模型的推理能力,让 AI 不仅能“看见”,更能“看懂”。
而 ChatRex、RexSeek 和 RexThinker,这三者分别代表着目标检测任务从自然语言理解、到指代消解、再到多模态推理能力的三次进化。
ChatRex
论文:ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
链接:https://arxiv.org/abs/2411.18363
代码:https://github.com/IDEA-Research/ChatRex
在传统目标检测中,用户与模型的交互极其有限,大多数系统只能检测预设类别,且依赖于大量标注训练数据。这使得系统很难适应开放世界场景,比如用户希望找到“靠近沙发右边的蓝色水杯”时,模型往往束手无策。
ChatRex 的核心思路是将传统的视觉检测器与多模态语言模型进行“功能解耦”,前者继续完成高效的候选框检测任务,而后者则专注于理解用户的自然语言指令,并在所有候选框中筛选出最符合语义的目标。通过这种分工协作,ChatRex 既保留了传统检测模型的效率优势,又融入了语言理解与推理能力,使得用户可以通过自由对话的方式描述目标,而模型能够精准“听懂”和“看懂”你说的内容。
不过,ChatRex 的能力也有其边界。当面对涉及复杂上下文或者指代关系的描述时,模型容易出现理解错误。
RexSeek
论文:Referring to Any Person
链接:https://arxiv.org/abs/2503.08507
代码:https://github.com/IDEA-Research/RexSeek
现实中的对话远不是一轮一问一答那么简单。当用户说出“帮我选出她刚刚看的那本书”,系统不仅需要知道“她”是谁,还要理解“刚刚”指的是哪一段交互,“那本书”又是哪一本。这种带有语境和指代的目标表达,是传统检测系统几乎无法应对的。
RexSeek 正是在这个背景下诞生的。在 ChatRex 的基础上,RexSeek加入了专门的指代消解机制和多轮上下文建模能力。RexSeek 能够追踪历史对话记录,识别其中的实体与关系,并通过跨模态语义对齐,正确解析像“它”、“那边那个”、“她手上的”这类模糊表达。它的强大在于不仅处理静态图像中的目标定位,还能在多轮对话中保持一致的理解能力。
RexSeek 的引入,标志着目标检测不再是孤立的视觉任务,而是融入了语言交互的动态系统。它让系统开始具备“语义连续性”的能力,也为实现更高级别的智能交互打下了基础。
RexThinker
论文:Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
链接:https://arxiv.org/abs/2506.04034
代码:https://github.com/IDEA-Research/Rex-Thinker
当目标检测任务从对话理解迈向逻辑推理时,系统不再只是找到用户描述的物体,而是要理解描述背后的意图、关系甚至时间链条。比如,用户说:“那个她刚刚拿起来又放下的白色盒子”,模型就必须推理出“她是谁”、“刚刚是何时”、“拿起又放下的动作在哪一帧发生”,这些信息往往散布在语言和视觉数据中多个位置。
RexThinker 应运而生,它不仅具备 RexSeek 的语义追踪能力,更加入了类“思维链(Chain-of-Thought)”机制,通过多步推理构建出复杂的跨模态理解路径。在 RexThinker 中设计了视觉记忆缓存系统,能够保存过往交互中的目标状态,结合语言指令进行动态匹配。同时,它的注意力路由机制支持模型在多帧图像、多段描述之间灵活切换,真正实现了“类人类”的视觉理解过程。
可以说,RexThinker 是一个初步具备认知能力的视觉 Agent。它不再只是响应用户命令的工具,而是一个可以与人类共同分析场景、解决问题的智能伙伴。
7月15日晚8点,青稞Talk 第63期,华南理工大学与IDEA 联合培养博士蒋擎,将直播分享《ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建》。
分享嘉宾
蒋擎,华南理工大学博士生,IDEA-CVR 实习生。其主要研究方向为开集目标检测,多模态大语言模型,代表工作包括 T-Rex2, Grounding DINO 1.5, DINOX 等。在 ICCV,ECCV,CVRP 等国际会议发表论文,致力于推进以物体为核心的通用感知系统。
主题提纲
ChatRex & RexSeek & RexThinker:结合多模态大语言模型的目标检测模型构建
1、目标检测发展现状与困境
2、ChatRex:融合传统检测器与多模态大语言模型
3、RexSeek:开创下一代指代目标检测新范式
4、RexThinker:探索思维链驱动的指代检测新架构
直播时间
7月15日20:00 - 21:00
往期推荐
一起来聊聊:强化学习是否真的能提升大模型的推理能力?
直播预告!大模型推理强化学习中的熵机制
直播预告!世界模型版《模拟人生》:面向人、机器人与社会的开放世界模拟平台
Fast-dLLM技术解析:分块KV缓存与置信度感知并行解码技术
都看到这了,点个关注再走吧🧐~