当前位置：首页 > news >正文

【深度解析】YOLOE登场：CNN路线的开放世界新答卷，超越YOLO-World与Transformer

news 2025/7/3 9:54:57

近年来，Transformer架构以雷霆之势席卷计算机视觉领域，从ViT到DETR再到Grounding DINO，各类Transformer模型频频刷新检测与分割性能的新高。在这样的大背景下，卷积神经网络（CNN）体系似乎逐渐退居二线。

然而，YOLO系列以其一贯的轻量高效，始终在实际部署场景中占据重要地位。尤其是腾讯团队提出的YOLO-World，首次将开放词汇检测（Open-Vocabulary Detection）引入了YOLO体系，实现了令人惊叹的实时开放检测。

如今，清华大学团队在YOLO-World的基础上提出了新一代模型——YOLOE（Real-Time Seeing Anything），不仅进一步提升了检测性能与推理速度，更引入了多模态提示支持和强大的实例分割能力，拓展了开放世界视觉任务的新边界。

那么，YOLOE与火爆的Transformer模型之间有何区别？与YOLO-World相比又有何升级？本文将带你深入了解。

论文地址：https://arxiv.org/pdf/2503.07465

项目链接：https://github.com/THU-MIG/yoloe

一、Transformer当道，YOLO系为何坚持CNN路线？

二、YOLO-World与YOLOE

YOLO-World简述

YOLOE的进一步进化

三、YOLOE的核心亮点详解

多提示机制：灵活适应多样场景

开放词汇实例分割：检测与分割合二为一

四、Coovally平台助力：从实验到应用一站式打通

五、使用案例和应用

开放世界物体检测：

快速检测和单次检测：

大词汇量和长尾识别：

交互式检测和分割：

自动数据标注和引导：

任意物体的分割：

六、YOLOE的意义与未来展望

一、Transformer当道，YOLO系为何坚持CNN路线？

在视觉领域，Transformer模型凭借其出色的全局建模能力成为主流。以ViT、DETR、Grounding DINO等为代表的Transformer系模型，擅长捕捉长距离依赖关系，能有效处理复杂场景下的视觉理解任务。

但Transformer的优势也伴随着明显的代价：

YOLO体系在快速推理和资源友好性方面始终有着不可替代的优势，尤其适合边缘计算、移动设备、无人机等对实时性要求极高的场景。

YOLO-World的出现，首次证明了轻量CNN结构也能在开放世界检测领域一战。YOLOE则在此基础上进一步突破，让轻量化与开放世界能力达到了新的高度。

二、YOLO-World与YOLOE

YOLO-World简述

YOLO-World由腾讯AI Lab提出，核心贡献在于：

将文本Prompt机制引入YOLO结构；
支持在预定义类别之外识别开放世界中的任意目标；
保持了YOLO一贯的推理高效性，实现了开放检测的实时化。

在当时，YOLO-World开辟了一个全新的方向，让轻量检测模型也能具备一定的开放词汇理解能力。

YOLOE的进一步进化

清华团队提出的YOLOE，则在YOLO-World基础上做出了系统性扩展与优化：

支持多种提示模式（Prompt）：不仅支持文本提示，还支持视觉提示（如选框、局部区域），甚至在无提示条件下自动识别（Prompt-Free）。
引入分割能力：不仅能检测，还能进行开放词汇条件下的实例分割（Segmentation）。
提升推理速度与精度：在开放世界任务中，YOLOE进一步缩短了推理时间，同时在检测和分割准确率上超越YOLO-World。

以下为简要对比：

可以看到，YOLOE在检测性能、分割支持和推理速度上均优于YOLO-World，真正实现了在实时性与开放世界能力之间的平衡与提升。

三、YOLOE的核心亮点详解

多提示机制：灵活适应多样场景

YOLOE首次引入了多提示机制（Multi-Prompt Support），具体包括：

文本提示（Text Prompt）：输入文字描述，检测对应类别物体；
视觉提示（Visual Prompt）：通过局部图像或框选区域引导检测；
无提示（Prompt-Free）：直接对画面中的所有可见物体进行识别和分类。

这种多模式提示支持极大增强了模型在实际应用中的灵活性，比如在无人巡检、医疗影像筛查等任务中，不同场景可以选择最适合的提示方式。

更多详解内容以及讲解可以访问《清华YOLOE新发布：实时识别任何物体！零样本开放检测与分割》

开放词汇实例分割：检测与分割合二为一

在YOLO-World时代，分割功能尚未被纳入实时开放检测体系。而YOLOE率先实现了：

开放词汇实例分割（Open-Vocabulary Instance Segmentation）
实时推理，毫不拖慢检测速度

对比如下：

YOLOE通过扩展带有掩码预测分支的检测头，将实例分割直接集成到其架构中。这种方法与YOLOv8类似，但适用于任何已提示的对象类别。分割掩码会自动包含在推理结果中，并可通过以下方式访问 results[0].masks. 这种统一的方法无需单独的检测和分割模型，从而简化了需要精确到像素的对象边界的应用的工作流程。

YOLOE打破了以往要快就不能分割，要分割就必须牺牲速度的局限，实现了实时检测与实时分割的统一。

在智慧城市、零售分析、工业巡检等应用中，实时分割尤其重要，比如快速圈定破损区域、识别特定材质物体等。