当前位置：首页 > news >正文

ChatRex RexSeek RexThinker：结合多模态大语言模型的目标检测模型构建

news 2025/7/13 10:22:25

主页：http://qingkeai.online/

原文：ChatRex & RexSeek & RexThinker：结合多模态大语言模型的目标检测模型构建

随着多模态大语言模型（Multimodal Large Language Models, MLLMs）的快速发展，人工智能的视觉理解能力正步入一个全新的阶段。相比传统只依赖图像的目标检测模型，如今的研究正逐渐转向“语言+图像”的联合建模，希望借助语言模型的推理能力，让 AI 不仅能“看见”，更能“看懂”。

而 ChatRex、RexSeek 和 RexThinker，这三者分别代表着目标检测任务从自然语言理解、到指代消解、再到多模态推理能力的三次进化。

ChatRex

论文：ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
链接：https://arxiv.org/abs/2411.18363
代码：https://github.com/IDEA-Research/ChatRex

在传统目标检测中，用户与模型的交互极其有限，大多数系统只能检测预设类别，且依赖于大量标注训练数据。这使得系统很难适应开放世界场景，比如用户希望找到“靠近沙发右边的蓝色水杯”时，模型往往束手无策。

ChatRex 的核心思路是将传统的视觉检测器与多模态语言模型进行“功能解耦”，前者继续完成高效的候选框检测任务，而后者则专注于理解用户的自然语言指令，并在所有候选框中筛选出最符合语义的目标。通过这种分工协作，ChatRex 既保留了传统检测模型的效率优势，又融入了语言理解与推理能力，使得用户可以通过自由对话的方式描述目标，而模型能够精准“听懂”和“看懂”你说的内容。

不过，ChatRex 的能力也有其边界。当面对涉及复杂上下文或者指代关系的描述时，模型容易出现理解错误。

RexSeek

论文：Referring to Any Person
链接：https://arxiv.org/abs/2503.08507
代码：https://github.com/IDEA-Research/RexSeek

现实中的对话远不是一轮一问一答那么简单。当用户说出“帮我选出她刚刚看的那本书”，系统不仅需要知道“她”是谁，还要理解“刚刚”指的是哪一段交互，“那本书”又是哪一本。这种带有语境和指代的目标表达，是传统检测系统几乎无法应对的。

RexSeek 正是在这个背景下诞生的。在 ChatRex 的基础上，RexSeek加入了专门的指代消解机制和多轮上下文建模能力。RexSeek 能够追踪历史对话记录，识别其中的实体与关系，并通过跨模态语义对齐，正确解析像“它”、“那边那个”、“她手上的”这类模糊表达。它的强大在于不仅处理静态图像中的目标定位，还能在多轮对话中保持一致的理解能力。

RexSeek 的引入，标志着目标检测不再是孤立的视觉任务，而是融入了语言交互的动态系统。它让系统开始具备“语义连续性”的能力，也为实现更高级别的智能交互打下了基础。

RexThinker

论文：Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
链接：https://arxiv.org/abs/2506.04034
代码：https://github.com/IDEA-Research/Rex-Thinker

当目标检测任务从对话理解迈向逻辑推理时，系统不再只是找到用户描述的物体，而是要理解描述背后的意图、关系甚至时间链条。比如，用户说：“那个她刚刚拿起来又放下的白色盒子”，模型就必须推理出“她是谁”、“刚刚是何时”、“拿起又放下的动作在哪一帧发生”，这些信息往往散布在语言和视觉数据中多个位置。

RexThinker 应运而生，它不仅具备 RexSeek 的语义追踪能力，更加入了类“思维链（Chain-of-Thought）”机制，通过多步推理构建出复杂的跨模态理解路径。在 RexThinker 中设计了视觉记忆缓存系统，能够保存过往交互中的目标状态，结合语言指令进行动态匹配。同时，它的注意力路由机制支持模型在多帧图像、多段描述之间灵活切换，真正实现了“类人类”的视觉理解过程。