当前位置：首页 > news >正文

[水果目标检测5]AppleYOLO：基于深度OC-SORT的改进YOLOv8苹果产量估计方法

news 2025/9/7 12:32:02

原文：AppleYOLO: Apple yield estimation method using improved YOLOv8 based on Deep OC-SORT

摘要：

本文的主要贡献总结如下：

AppleYOLO通过以下创新点增强了模型性能：

1. 骨干网络 (Backbone)

2. 颈部网络 (Neck)

3. 头部网络 (Head)

4. 追踪器 (Tracker)

研究中使用的数据集

数据集概况

数据集划分与扩充

标注方法

防止过拟合措施

对AppleYOLO在不同数据集和方法上进行比较：

1. 跨数据集验证

2. 跨方法比较

实验结果与性能分析

应用潜力与未来展望

摘要：

苹果产量估算的准确性对果园管理至关重要。现有的苹果产量估算方法仍然缺乏准确性和效率。为了解决这一挑战，本文提出了一种基于YOLOv8和Deep OC-SORT（AppleYOLO）的苹果产量估计方法。为了充分学习苹果的边缘信息，轻量级FasterNet被用作AppleYOLO的主干部分。为了使AppleYOLO准确捕捉上下文信息，提高苹果的空间感知，在其主干之后设计了焦点调制。为了解决提取复杂特征的能力，在AppleYOLO的特征融合部分采用了具有有效参数的动态卷积内核仓库。为了克服实时检测苹果时跟踪不稳定和重复计数的问题，在AppleYOLO中部署了深度OC-SORT。在我们定制的数据集中，通过消融实验验证，FasterNet、Focal Modulation和KernelWarehouse的引入增强了AppleYOLO的检测性能。与基准模型YOLOv8相比，AppleYOLO的mAP50和mAP50-95分别为98.5%和79.8%，提高了1%和5.1%。此外，AppleYOLO的性能优于其他最先进的方法，如YOLOv9-t、RT-DETR、YOLOv8和YOLOv7。实验证明，AppleYOLO能够达到高精度、高效率的目标。

本文的主要贡献总结如下：

1.针对大型果园苹果产量估算的挑战，提出了一种基于YOLOv8和Deep OC-SORT（AppleYOLO）的苹果产量估算方法。图 1 显示了 AppleYOLO 网络架构的四个关键组件：Backbone 网络、Neck 网络、Head 网络和 Tracker 部分。
2.为了提高网络学习输入图像边缘信息的能力，例如苹果的轮廓和纹理，在AppleYOLO的骨干网中引入了FasterNet。在不增加网络模型内存访问时间的情况下，提高了学习对象边缘信息的效率。
3.为了提取苹果大小信息、定位苹果位置、提高物体的空间识别能力，采用调焦（Focal Modulation，FM）机制来提高AppleYOLO的可解释性和关键信息的捕获能力。
4.为了减少树干、树枝和树叶对苹果检测造成的遮挡和干扰，利用KernelWarehouse（KWConv）提高了AppleYOLO Neck网络的复杂特征提取能力。
5.利用跟踪算法Deep OC-SORT作为AppleYOLO的Tracker部分，解决了实时苹果检测中跟踪不稳定、重复计数的问题。它确保每个检测到的苹果都被分配一个唯一的识别号，从而提高苹果产量估算的准确性

AppleYOLO通过以下创新点增强了模型性能：

FasterNet：引入该快速神经网络，以充分提取苹果的边缘信息。
Focal Modulation：采用这种特征聚合策略，增强模型对苹果大小和位置的特征表达能力。
KernelWarehouse：利用这一参数高效的动态卷积技术，提升模型学习复杂特征的能力。
Deep OC-SORT：引入一种新的基于运动分析的计数方法，显著提高了苹果计数的准确性。

1. 骨干网络 (Backbone)

AppleYOLO的骨干网络将原始YOLOv8的Darknet53替换为FasterNet，以高效地提取图像的浅层特征，例如苹果的颜色、轮廓和纹理。这种设计解决了叶片遮挡苹果的挑战，因为FasterNetBlock即使在苹果被部分遮挡时也能识别关键的视觉线索。

此外，它移除了原始的SPPF层，并引入了Focal Modulation，用于聚合多尺度特征，提供更全面的上下文信息，从而提高模型处理水果重叠问题的能力。通过融合不同尺度的特征，即使苹果重叠或空间配置复杂，其独特特征也能被有效检测。

2. 颈部网络 (Neck)

颈部网络负责将骨干网络提取的浅层特征与更深层的语义特征进行融合。如图所示，经过上采样层后，特征图的分辨率得到提高，然后通过Concat操作与骨干网络的特征图进行融合，确保不同尺度的特征得到有效融合。

该部分的核心创新在于在YOLOv8的C2f模块中引入了KWConv（KernelWarehouse）。KWConv能动态调整卷积核以优化特征的表征，使模型能更好地适应不同尺寸的苹果，从而有效处理不同大小的苹果。

同时，常规卷积（Conv）负责通用的特征处理，例如边缘检测和纹理识别。KWConv和Conv的结合使得模型在特征融合过程中既能捕获复杂的高级特征，又能有效处理底层特征，例如帮助解决苹果与叶片颜色相似的挑战。

3. 头部网络 (Head)

头部网络将颈部网络融合后的特征图按比例缩放，得到三种不同尺度的输出网格：80×80、40×40和20×20，以适应不同尺寸的目标检测。

每个网格对应特定的目标尺寸，使得模型能够同时处理大、中、小型目标。这种多尺度输出结构确保了模型的灵活性和适应性，使其能更有效地识别和定位不同大小的苹果，尤其是在复杂背景或重叠情况下。

获得多尺度输出后，这些特征图被传递给Deep OC-SORT算法，该算法结合了每个尺度网格的检测结果，进行后续的目标追踪和身份匹配。

4. 追踪器 (Tracker)

追踪器部分首先由目标检测部分负责实时检测图像中的苹果，并识别其位置和大小。随后，这些检测结果被传递给Deep OC-SORT算法。

该算法利用这些信息追踪每个苹果在视频帧之间的移动轨迹，从而实现苹果的连续计数。这种协同工作确保了在动态环境下苹果计数的准确性，即使苹果发生移动或相互遮挡，也能保持高水平的准确性。

研究中使用的数据集

数据集概况

该研究共获得797张真实果园中的高清苹果RGB图像，图像分辨率为1920 × 1080。相机与果树的距离约为1.2米，果树行距为2.7米，株距为1.5米。

数据集划分与扩充

初始划分：将797张原始图像按照8:2的比例随机划分为训练集（637张）和验证集（160张）。
数据增强：为了解决原始图像数量少可能导致的模型过拟合问题，研究对637张训练集图像进行了数据增强，最终获得1911张训练图像。
- 运动模糊（Motion blur）：用于模拟物体运动时的模糊效果，使图像更具动态性和真实感。模糊核大小（Kernel Size）设置为15。
- 高斯噪声（Gaussian noise）：用于模拟现实环境中的噪声干扰，如传感器热噪声和光线波动。噪声分布均值（loc）设为0，标准差（std）设为4。

标注方法

标注目的：为了提高产量预测的准确性，标注方法旨在避免模型识别到图像后排的苹果。
单行标注：根据农业专家的指导，采用单行标注方法对所有图像进行处理。
- 相机拍摄单排果树的正面视图。
- 仅对单排苹果树上的果实进行逐行标注（如图3(b)所示）。
标注工具：使用 Labelimg 图像标注软件对1911张训练集图像和160张验证集图像（共2071张）进行了正确的标注。

防止过拟合措施

除了数据增强外，该研究还采取了以下措施防止模型过拟合：

提前停止（Early stopping）：设置了最后50个训练周期的提前停止方法。当模型在验证集上的性能不再提升时，训练将停止。

对AppleYOLO在不同数据集和方法上进行比较：

1. 跨数据集验证

为了验证AppleYOLO模型的通用性和有效性，研究人员将其在两个不同的数据集上进行了测试：MinneApple（苹果数据集）和kiwifruit（猕猴桃数据集）。

MinneApple数据集：
- 数据量：从MinneApple数据集中获取了331张带有标注的图片。
- 数据增强：由于原始数据量较少，除了使用了本文提出的高斯噪声和运动模糊增强方法外，还额外采用了5度和30度的旋转增强。
- 最终数据量：增强后共获得1921张图片，其中训练集1855张，验证集66张。
Kiwifruit数据集：
- 数据量：包含2400张图片，按8:2的比例划分为训练集和验证集。

结果分析（见表8）：

AppleYOLO在这两个数据集上表现出色。尤其是在MinneApple和kiwifruit数据集上，mAP50和mAP50-95的准确率相比原始论文都有显著提升。这证明了AppleYOLO不仅在不同的苹果数据集上表现良好，而且在其他水果种类的数据集上也展现了其卓越的性能。

2. 跨方法比较

为了进一步证明AppleYOLO的优越性，研究人员将其与几种主流的苹果检测方法进行了对比，包括Faster-RCNN、YOLOv7-tiny-Apple和YOLOv5s-BC。

结果分析（见图22和表9）：

mAP50-95曲线（图22）：随着训练周期的增加，AppleYOLO的mAP50-95性能曲线（红色线）明显高于其他三种方法，显示出其在收敛速度和最终性能上的显著优势。
详细性能参数（表9）：AppleYOLO在精度和性能方面均优于所有其他对比方法。
- Faster-RCNN在MinneApple数据集中被认为是有效的CNN方法，但其具体参数未在表格中保存。
- 与YOLOv7-tiny-Apple和YOLOv5s-BC相比，AppleYOLO在各项指标上均表现更佳。

结论：

通过与不同数据集和不同检测方法的对比，该研究验证了AppleYOLO模型的有效性和优越性，证明了其在水果目标检测任务上的强大竞争力。

实验结果与性能分析

AppleYOLO的实验结果表明其性能优越：

高精度：在标准检测指标 mAP50 上，准确率达到 98.5%；在更严格的 mAP50-95 指标上，准确率达到 79.8%。
显著提升：相较于基准模型，mAP50和mAP50-95分别提升了 1% 和 5.1%。
mAP50-95 提升更大：这一现象是因为AppleYOLO在更高的IOU（交并比）阈值下，仍然能实现精准的边界框定位和出色的细节检测能力，满足了mAP50-95对高质量检测的严格要求。
高相似度：苹果计数的 R² 值达到0.95，表明其计数结果与人工计数高度相似。
实时性：模型保持了 100.3FPS 的高处理速度，确保了稳定和实时的计数能力。

应用潜力与未来展望

实际应用：AppleYOLO在精准农业领域具有巨大潜力。它可以快速扫描果树图像，准确识别和计数水果，为农民提供精准的产量预估，减少人工误差。
优化管理：该方法还能实现对不同地区水果生产和果树健康状况的实时监测，从而优化种植管理，如合理分配水肥资源、提前规划采摘和运输。
处理其他水果：AppleYOLO还具备处理其他水果或作物的能力。
未来改进：由于不同种类水果的颜色、形状和成熟度差异，模型需要更多标注数据进行学习。未来的工作可考虑引入 半监督学习（Semi-Supervised learning） 技术，以少量标注数据达到理想的模型性能，解决标注工作耗时耗力的问题。