当前位置: 首页 > news >正文

目标检测标注格式

这是一个非常核心且重要的问题。理解这三种主流标注格式的区别,对于进行目标检测任务至关重要。

我将通过一个 核心对比表格详细的逐一解析 来帮助你彻底弄懂它们。

核心对比一览表

特性PASCAL VOC 格式YOLO 格式COCO 格式
文件类型XML (.xml)文本文件 (.txt)JSON (.json)
文件结构每个图像一个标注文件每个图像一个标注文件整个数据集一个总标注文件
坐标表示绝对像素坐标 (角点)<br><xmin>, <ymin>, <xmax>, <ymax>归一化相对坐标 (中心点)<br><x_center>, <y_center>, <width>, <height>绝对像素坐标 (左上角+宽高)<br>[x_min, y_min, width, height]
标注丰富度中等 (主要用于目标检测)简单 (专为目标检测设计)极高 (检测、分割、关键点、描述等)
易用性较易读,但冗长非常简单,易于手动创建和脚本处理复杂,不适合手动编辑,需工具支持
典型应用早期研究,许多工具的基础格式YOLO系列模型,追求速度和简洁学术界标准,大型复杂数据集,多任务

1. PASCAL VOC (Visual Object Classes) 格式

这是早期目标检测研究中非常流行的格式,许多标注工具都支持导出为这种格式。

  • 特点:

    • 文件类型: XML 格式,具有良好的可读性。

    • 文件结构: 一对一。每张图片(如 image001.jpg)都有一个同名的XML文件(image001.xml)与之对应。

    • 坐标系统: 使用绝对像素值来定义边界框的左上角和右下角两个点。

      • <xmin>: 边界框左上角点的 x 坐标。

      • <ymin>: 边界框左上角点的 y 坐标。

      • <xmax>: 边界框右下角点的 x 坐标。

      • <ymax>: 边界框右下角点的 y 坐标。

  • 示例 (image001.xml):

          <annotation><folder>images</folder><filename>image001.jpg</filename><path>/path/to/images/image001.jpg</path><size><width>800</width><height>600</height><depth>3</depth></size><object><name>cat</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>150</xmin><ymin>200</ymin><xmax>450</xmax><ymax>500</ymax></bndbox></object>
    </annotation>

2. YOLO (You Only Look Once) 格式

这是为YOLO系列模型量身定制的格式,追求极致的简洁和高效。

  • 特点:

    • 文件类型: TXT 纯文本格式。

    • 文件结构: 一对一。和VOC一样,每张图片(image001.jpg)都有一个同名的TXT文件(image001.txt)。

    • 坐标系统: 使用归一化的相对坐标,所有值都在 0 到 1 之间。这使得它对图像尺寸变化不敏感。

      • <class_id>: 物体类别的索引(整数),从0开始。通常需要一个单独的 classes.txt 或 data.yaml 文件来映射索引和类别名称。

      • <x_center>: 边界框中心的 x 坐标 / 图像总宽度。

      • <y_center>: 边界框中心的 y 坐标 / 图像总高度。

      • <width>: 边界框的宽度 / 图像总宽度。

      • <height>: 边界框的高度 / 图像总高度。

  • 示例 (image001.txt):
    假设 cat 在 classes.txt 中是第0类,图片尺寸为 800x600,猫的边界框是 (xmin:150, ymin:200, xmax:450, ymax:500)。

    • x_center = (150 + 450) / 2 / 800 = 0.375

    • y_center = (200 + 500) / 2 / 600 = 0.583

    • width = (450 - 150) / 800 = 0.375

    • height = (500 - 200) / 600 = 0.5

    image001.txt 文件的内容将是(每行代表一个物体):

          0 0.375000 0.583333 0.375000 0.500000

    IGNORE_WHEN_COPYING_START

    content_copydownload

    Use code with caution.

    IGNORE_WHEN_COPYING_END


3. COCO (Common Objects in Context) 格式

这是目前学术界和工业界最流行、功能最强大的标注格式,由微软团队推出。

  • 特点:

    • 文件类型: JSON 格式,结构化但非常庞大。

    • 文件结构: N对一。整个数据集(如训练集或验证集)只有一个JSON文件,里面包含了所有图片的信息、所有物体的标注信息、类别信息等。

    • 坐标系统: 使用绝对像素值,但格式与VOC不同。

      • [x_min, y_min, width, height]: 分别是边界框左上角点的x、y坐标,以及边界框的宽度和高度。

    • 标注丰富度: 这是其最大优势。除了目标检测的边界框,它还支持:

      • 实例分割 (Instance Segmentation): 用多边形点集精确勾勒物体轮廓。

      • 关键点检测 (Keypoint Detection): 标注人体关节点等。

      • 图像描述 (Image Captioning): 对图片进行文字描述。

  • 示例 (JSON文件片段):

          {"info": {...},"licenses": [...],"images": [{"id": 1,"width": 800,"height": 600,"file_name": "image001.jpg"}],"annotations": [{"id": 1,"image_id": 1, // 关联到ID为1的图片"category_id": 17, // 关联到ID为17的类别"segmentation": [[150, 200, 450, 200, 450, 500, 150, 500]], // 分割多边形"area": 90000,"bbox": [150, 200, 300, 300], // [x, y, width, height]"iscrowd": 0}],"categories": [{"id": 17,"name": "cat","supercategory": "animal"}]
    }

    IGNORE_WHEN_COPYING_START

    content_copydownload

    Use code with caution. Json

    IGNORE_WHEN_COPYING_END


我应该用哪种格式?

  • 如果你正在训练 YOLO 模型: 首选 YOLO 格式。如果你的数据是其他格式,最好先将其转换为YOLO格式。

  • 如果你想进行复杂的任务(如实例分割、关键点检测): 必须使用 COCO 格式。它是这类任务的事实标准。

  • 如果你需要一个易于人类阅读和调试的格式: VOC 格式 是一个不错的选择,但它的功能不如COCO。

  • 如果你刚开始学习目标检测:YOLO 格式 入手最简单,因为它只需要创建简单的文本文件。

许多标注工具(如 LabelImg, CVAT, LabelMe)都支持在这些格式之间进行导出和转换,非常方便。

http://www.xdnf.cn/news/1016479.html

相关文章:

  • 对象映射 C# 中 Mapster 和 AutoMapper 的比较
  • 无人机侦测与反制技术进展
  • 精益数据分析(101/126):SaaS商业模式优化与用户生命周期价值提升策略
  • React 第六十一节 Router 中 createMemoryRouter的使用详解及案例注意事项
  • 【CSS-12】掌握CSS列表样式:从基础到高级技巧
  • 如何快速搭建门店系统?
  • 浅析MySQL数据迁移与恢复:从SQLServer转型到MySQL
  • 搭建网站应该怎样选择服务器?
  • 在mac上安装sh脚本文件
  • C++标准库大全(STL)
  • Spring Boot 集成国内AI,包含文心一言、通义千问和讯飞星火平台实战教程
  • 域名+nginx反向代理实现案例
  • Python学习笔记:错误和异常处理
  • 影像组学5:Radiomics Score的计算
  • 深度学习驱动的验证码识别实战:从原理到高并发工业部署
  • YOLOV11改进之多尺度扩张残差模块(MS-DRM)
  • [特殊字符][特殊字符] Harmony OS Next玩转多层级手势事件:当组件遇上“套娃”,触摸该怎么分家?
  • 北斗导航 | 基于matlab的卫星导航单点定位算法
  • Linux文件权限详解:从入门到精通
  • 每日Prompt:Steve Winter风格插画
  • 2.3 ASPICE的架构与设计
  • 服务器上安装配置vsftpd
  • Java流处理中的常见错误与最佳实践
  • 第八十篇 大数据开发基石:深入解析栈结构及其生活化应用(附全流程图解)
  • Cloud Events:事件驱动架构的未来标准化
  • 访问者模式:解耦数据结构与操作的优雅之道
  • 前端性能优化:打造极致用户体验
  • 洛谷:B3799 [NICA #1] 序列
  • 单片机,主循环和中断资源访问冲突的案例
  • P1197 [JSOI2008] 星球大战