【计算机视觉】目标检测:yoloV1~yoloV11项目论文及对比
以下是 YOLO (You Only Look Once) 系列模型从 V1 到 V11 的详细介绍和项目地址(截至2024年7月)。YOLO 是目标检测领域的里程碑模型,以其 实时性 和 高精度 著称,广泛应用于自动驾驶、安防监控、工业检测等领域。
YOLOv1 (2016)
📌 论文: You Only Look Once: Unified, Real-Time Object Detection
📌 代码: Darknet (C 实现)
📌 特点:
- 首个 单阶段(one-stage) 目标检测模型,直接回归边界框和类别。
- 使用 全卷积网络(FCN),速度快但精度较低。
- 输入分辨率 448×448,在 Pascal VOC 上 mAP 63.4。
YOLOv2 (YOLO9000, 2017)
📌 论文: YOLO9000: Better, Faster, Stronger
📌 代码: Darknet
📌 特点:
- 引入 Batch Normalization,提升训练稳定性。
- 使用 Anchor Boxes 提高定位精度。
- 提出 Darknet-19 骨干网络,比 V1 更快更准。
- 支持 多尺度训练(Multi-Scale Training),输入分辨率可调。
- 在 Pascal VOC 上 mAP 78.6,可检测 9000+ 类别(YOLO9000)。
YOLOv3 (2018)
📌 论文: YOLOv3: An Incremental Improvement
📌 代码: Darknet
📌 特点:
- 采用 Darknet-53 骨干网络(带残差连接)。
- 引入 多尺度预测(FPN-like),提升小目标检测能力。
- 使用 Binary Cross-Entropy (BCE) Loss 替代 Softmax 分类。
- 在 COCO 上 mAP 33.0,速度 65 FPS(Titan X)。
YOLOv4 (2020)
📌 论文: YOLOv4: Optimal Speed and Accuracy of Object Detection
📌 代码: Darknet
📌 特点:
- 引入 CSPDarknet53 骨干网络,提升特征提取能力。
- 采用 PANet + SPP 增强多尺度特征融合。
- 使用 Mosaic Data Augmentation 和 CIoU Loss 提升训练效果。
- 在 COCO 上 mAP 43.5,速度 62 FPS(Tesla V100)。
YOLOv5 (2020)
📌 论文: 无官方论文(Ultralytics 团队开发)
📌 代码: Ultralytics YOLOv5 (PyTorch)
📌 特点:
- PyTorch 实现,更易部署和训练。
- 引入 Focus 模块 减少计算量。
- 支持 Auto Learning Rate & Batch Size。
- 提供 多个预训练模型(YOLOv5s, m, l, x)。
- 在 COCO 上 mAP 50.7(YOLOv5x)。
YOLOv6 (2022)
📌 论文: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
📌 代码: Meituan YOLOv6
📌 特点:
- 由 美团(Meituan) 团队开发,面向工业应用。
- 采用 EfficientRep 骨干网络 和 RepVGG 风格 结构。
- 引入 Anchor-Free + SimOTA 标签分配策略。
- 在 COCO 上 mAP 52.8(YOLOv6-L)。
YOLOv7 (2022)
📌 论文: YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors
📌 代码: WongKinYiu YOLOv7
📌 特点:
- 提出 Extended Efficient Layer Aggregation Network (E-ELAN)。
- 引入 Model Scaling & Compound Scaling 优化推理速度。
- 支持 辅助训练头(Auxiliary Head) 提升小目标检测。
- 在 COCO 上 mAP 56.8(YOLOv7-E6E)。
YOLOv8 (2023)
📌 论文: 无官方论文(Ultralytics 团队开发)
📌 代码: Ultralytics YOLOv8
📌 特点:
- 支持 目标检测 + 实例分割 + 姿态估计。
- 采用 Anchor-Free + Distribution Focal Loss。
- 提供 CLI & Python API,易于部署。
- 在 COCO 上 mAP 53.9(YOLOv8x)。
YOLOv9 (2024)
📌 论文: YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
📌 代码: WongKinYiu YOLOv9
📌 特点:
- 提出 PGI (Programmable Gradient Information) 解决信息丢失问题。
- 采用 GELAN (Generalized Efficient Layer Aggregation Network) 骨干。
- 在 COCO 上 mAP 63.0(YOLOv9-E),SOTA 性能。
YOLOv10 (2024)
📌 论文: YOLOv10: Real-Time End-to-End Object Detection
📌 代码: THU-MIG YOLOv10
📌 特点:
- 由 清华 MIG 团队 提出,无 NMS(Non-Maximum Suppression)。
- 采用 Consistent Dual Assignments 提升端到端训练。
- 在 COCO 上 mAP 56.8(YOLOv10-X),速度更快。
YOLOv11 (2024)
📌 论文: 尚未正式发布(社区改进版)
📌 代码: 社区实现
📌 特点:
- 目前 非官方版本,部分改进包括:
- 更轻量级设计(适合移动端)。
- 改进的注意力机制(如 EMA、SimAM)。
- 结合 Diffusion 模型 进行数据增强。
总结
版本 | 年份 | 骨干网络 | 关键改进 | mAP (COCO) | 项目地址 |
---|---|---|---|---|---|
YOLOv1 | 2016 | Darknet | 单阶段检测 | 63.4 (VOC) | Darknet |
YOLOv2 | 2017 | Darknet-19 | Anchor Boxes | 78.6 (VOC) | Darknet |
YOLOv3 | 2018 | Darknet-53 | 多尺度预测 | 33.0 | Darknet |
YOLOv4 | 2020 | CSPDarknet53 | PANet + SPP | 43.5 | Darknet |
YOLOv5 | 2020 | CSPNet | PyTorch 实现 | 50.7 | Ultralytics |
YOLOv6 | 2022 | EfficientRep | Anchor-Free | 52.8 | Meituan |
YOLOv7 | 2022 | E-ELAN | 辅助训练头 | 56.8 | WongKinYiu |
YOLOv8 | 2023 | CSPDarknet | 多任务支持 | 53.9 | Ultralytics |
YOLOv9 | 2024 | GELAN | PGI 机制 | 63.0 | WongKinYiu |
YOLOv10 | 2024 | CSPNet | 无 NMS | 56.8 | THU-MIG |
YOLOv11 | 2024 | 社区改进 | 轻量化 | - | 社区 |
如何选择 YOLO 版本?
- 工业部署 → YOLOv5 / YOLOv8(PyTorch 生态友好)
- 最高精度 → YOLOv9 / YOLOv10
- 移动端/嵌入式 → YOLOv5s / YOLOv8n
- 学术研究 → YOLOv7 / YOLOv9
YOLO 系列仍在快速发展,建议关注 Ultralytics、Meituan、WongKinYiu 等团队的最新研究! 🚀