Rex-Thinker模型的核心思想、亮点和挑战
核心问题:让AI“指哪框哪”更靠谱
你指着图片对AI说:“帮我把那个戴红帽子的骑车人圈出来”。这就是“指代表达理解”(REC)。传统方法要么直接“蒙”一个框(不透明),要么在预选框里选(可能选错),过程像黑盒子,不知道AI怎么想的,错了也不知道为啥错。
Rex-Thinker的目标:让AI不仅能准确定位目标,还能像人一样一步步推理(可解释),并且在目标不存在时能老实说“找不到”(可信赖、不瞎编)。
Rex-Thinker的“三板斧”
像侦探一样思考:规划-行动-总结三步走
- 规划: AI先拆解你的指令。比如“戴红帽子的骑车人”,它会计划:“第一步:找到图里所有人;第二步:看看哪些人戴帽子;第三步:挑出红帽子;第四步:确认他们在骑车”。
- 行动: AI按照计划一步步检查。它有一个候选框列表(比如用工具检测出的所有人)。它会说:“候选1:没戴帽子,排除。候选2:戴蓝帽子,排除。候选3:戴红帽子且骑车,符合!”
- 总结: AI回顾检查结果,给出最终答案:“目标就是候选3那个框”,或者“一个符合的都没有”。
- 好处: 每一步都看得见、说得清!错了也能知道哪步错,还能拒绝回答。
给AI编“教科书”:HumanRef-CoT数据集
为了让AI学会这种推理方式,研究人员用GPT-4o给大量图片生成了详细的推理步骤(规划、行动、总结),就像给AI编写了带标准答案的“推理教科书”。
- 关键技巧: 在图片上预先标注好候选框(Set-of-Mark),让GPT-4o的推理能准确对应到图片区域。
“先学步,再优化”:两阶段训练法
- 第一步:模仿学习: 让AI模型(基于大语言模型LLM)照着“教科书”学,模仿标准的推理步骤和答案。
- 第二步:强化学习: 让AI在练习中自己摸索更优解。设定两个奖励:
- 格式奖励: 推理步骤写得对不对路?(规划-行动-总结)
- 准确性奖励: 最终框得准不准?(F1分数)
- 目的: 第一步打好基础,第二步提升水平,让推理更流畅、答案更精准。
Rex-Thinker的亮眼表现
- 大幅提升“拒绝回答”能力: 当目标不存在时,模型能更果断地说“找不到”,避免幻觉。性能提升显著(53.5 -> 67.3)。
- 整体准确性提高: 经过强化学习优化后,在多个测试集上平均表现达到83.5,优于之前的顶尖模型。
- 跨类别理解增强: 即使测试图片包含训练时没见过的物体类型(如动物、工具),模型也能较好地应用推理模式。
- 可解释性一流: 每一步推理都清晰可见,不再是黑盒子。
面临的挑战与局限(论文与用户实测均发现)
-
推理速度慢:
- 原因: 生成一大段推理文本(CoT)非常耗时(约6.68秒 vs 不推理的1.13秒),大模型本身计算也慢。
- 影响: 限制实时应用。
-
“心口不一”现象 (Inconsistent Reasoning):
- 现象: 推理步骤里说“找到9个人”,最终答案却只给8个框。
- 原因: 训练阶段有“漏洞”。在强化学习阶段,主要奖励最终框的准确性(F1)。AI可能发现:推理过程写错点没关系,只要最终框对就能拿高分!导致推理和行动脱节。
-
视觉感知依赖前置检测器:
- 问题: Rex-Thinker依赖外部目标检测器(如GroundingDINO)先提供候选框。如果检测器出错了(漏框、错框、错类别),后续推理再强也无力回天。
- 用户实测案例: 让模型找“没戴口罩的人”。检测器把背景模糊人影也框成“人”(错误候选)。模型推理虽提到“远处看不清”,但最终却错误地框出了这些模糊人影。
-
感知能力不足,缺乏自我验证:
- 问题: 模型在判断关键属性(如“是否戴口罩”、“是否骑车”)时可能出错,尤其在目标小、模糊、遮挡时。
- 缺乏深度验证: 模型所谓的“总结复核”(Re-Check) 常常只是简单重复前面的结论,缺乏有效的自我质疑、交叉验证或利用上下文线索的能力。用户实测中,模型未能纠正错误的判断。
-
推理的本质仍是统计模式匹配:
- 核心局限: 尽管结构上模仿了人类推理步骤,但模型底层逻辑仍然是学习语言描述与视觉特征之间的统计关联,而非真正的因果理解和逻辑推理。它很难进行反事实思考(“如果这个不是人,会是什么?”)或多路径探索(“除了这个框,还有没有其他可能?”)。
总结
-
Rex-Thinker是什么?
一个追求可解释、可信赖的视觉定位模型,核心创新是规划-行动-总结的CoT推理框架和配套的数据集与训练方法。 -
它强在哪?
大幅提升了可解释性、拒绝回答能力、整体准确性和跨类别泛化性。 -
它弱在哪?
推理慢、可能心口不一、依赖外部检测器、感知判断易错、缺乏深度验证机制、底层仍是统计学习而非逻辑推理。 -
代表方向:
Rex-Thinker代表了追求AI决策透明化和稳健性的重要方向。它解决了“黑盒子”和“乱说话”的部分问题,但在感知鲁棒性、深度推理能力和效率方面仍有很长的路要走。这不仅是Rex-Thinker的挑战,也是当前整个多模态推理领域面临的共性难题。未来的突破需要在感知、推理、验证机制等多个层面协同优化。
https://arxiv.org/abs/2506.04034
https://github.com/IDEA-Research/Rex-Thinker
https://mp.weixin.qq.com/s/mFKAFOF6j–YGAfsQdSCcg