当前位置: 首页 > ai >正文

YOLO11 改进、魔改|低分辨率自注意力机制LRSA ,提取全局上下文建模与局部细节,提升小目标、密集小目标的检测能力

        在计算机视觉的密集预测任务(如语义分割、目标检测)中,模型需同时处理两方面需求:一是高分辨率特征以保证像素级细节的精准性(如物体边缘、小目标轮廓),二是全局上下文信息以理解场景中物体的关联关系(如 “天空在建筑物上方”“行人与道路的相对位置”)。传统视觉 Transformer 的自注意力机制虽能建模全局依赖,但计算复杂度与输入特征的 token 数量呈二次方关系,当输入分辨率提高时,计算成本会急剧增加,形成难以突破的效率瓶颈。

        现有解决方案存在明显局限:窗口自注意力(如 Swin Transformer)通过局部窗口限制计算范围,虽降低了成本,但牺牲了全局关联捕捉能力;部分下采样方法(如 SegFormer)仅对 key 和 value 进行下采样,其长度仍随输入分辨率线性增长,在高分辨率场景下效率提升有限。为解决这一矛盾,Low-Resolution Self-Attention(LRSA)被提出,旨在以极低的计算成本实现全局上下文建模,同时通过补充设计保留局部细节,平衡精度与效率。

1.LRSA 原理

        LRSA 的核心原理是将自注意力计算严格限制在固定的低分辨率空间中,彻底摆脱输入分辨率对计算成本的影响。具体而言,它不再直接在原始高分辨率特征上计算自注意力,而是先将输入特征(包括 query、key、value)统一下采样到一个固定的低分辨率尺寸(如 16×16),在该低分辨率空间中完成全局关联的计算后,再通过上采样将结果恢复到原始特征尺寸。

        由于低分辨率尺寸是固定值,自注意力的计算量不再随输入分辨率增长而增加,仅与固定尺寸和特征通道数相关,计算复杂度大幅降低。同时,为避免低分辨率处理丢失局部细节,LRSA 引入 3×3 深度可分离卷积(DWConv),通过残差连接与自注意力模块结合,在高分辨率空间中捕捉局部纹理、边缘等细粒度信息,形成 “低分辨率全局建模 + 高分辨率局部增强” 的协同机制。

LRSA 的结构围绕 “高效全局建模 + 精准局部捕捉” 设计,包含四个核心模块,各部分紧密衔接:

  1. 特征下采样模块:对输入的高分辨率特征图进行统一压缩,通过池化或卷积操作将其降至固定的低分辨率尺寸(如 16×16),确保 query、key、value 均在同一低分辨率空间中处理,从源头控制计算量。

  2. 低分辨率自注意力计算模块:在低分辨率特征上,通过线性变换生成 query、key、value,执行自注意力计算以捕捉全局关联。由于特征尺寸固定,无论输入图像分辨率如何变化,这一步的计算成本始终保持稳定,高效实现全局上下文建模。

  3. 特征上采样模块:通过双线性插值将低分辨率自注意力的输出结果放大至与原始输入特征相同的尺寸,以满足后续残差连接和特征融合的需求。这一步操作轻量,计算成本随输入分辨率增长仅呈线性增加,对整体效率影响极小。

  4. 局部细节增强模块:在自注意力计算的前后分别嵌入 3×3 深度可分离卷积,并配合残差连接:

    • 自注意力前的卷积用于增强输入特征的局部空间相关性,补充位置信息;
    • 自注意力后的前馈网络(FFN)中,卷积进一步强化对局部纹理、边缘的捕捉,弥补低分辨率处理可能丢失的细节。

2. LRSA 在不同领域论文中的描述

LRSA 在目标检测中的优点

        在目标检测中,LRSA 的低分辨率全局建模能力可高效捕捉场景中物体的全局关联(如 “车辆通常在道路上”“行人与自行车可能共存”),帮助模型区分相似目标(如不同类型的小尺寸交通工具)并减少误检;同时,其高分辨率局部卷积能精准提取目标的边缘、纹理等细节特征,提升检测框的定位精度。尤为重要的是,LRSA 的计算成本不随输入分辨率显著增长,即使在高分辨率图像中,也能在保证实时性的前提下,为多尺度目标(从远距离小目标到近距离大目标)提供充足的全局与局部信息支持,平衡检测效率与精度。

LRSA 在语义分割中的优点

        对于语义分割,LRSA 通过低分辨率全局自注意力有效建模场景中物体的上下文关系(如 “草地与树木相邻”“窗户属于建筑物”),缓解局部特征的歧义性(如避免将 “阴影” 误判为 “水体”);而高分辨率局部卷积则能保留像素级的细节信息,确保分割结果的边缘平滑(如准确区分 “道路与人行道的边界”)。其固定低分辨率的设计大幅降低了全局建模的计算负担,使得模型在处理大尺寸图像(如街景、遥感图像)时,既能保持高效推理,又能通过多尺度特征融合提升分割的整体一致性。

3. YOLO与LRSA 的结合  

       YOLO 系列以实时性为核心优势,LRSA 的低计算复杂度可在不显著增加推理延迟的前提下,为其引入全局上下文建模能力,帮助模型在复杂场景(如遮挡、密集目标)中更好地理解目标与环境的关系,减少漏检;同时,其局部卷积模块能增强对小目标、模糊目标的细节捕捉,提升检测精度,进一步优化 YOLO “速度快但细节稍弱” 的特性。

4. LRSA 代码部分

YOLO11|YOLO12|改进|低分辨率自注意力机制LRSA ,兼顾全局上下文建模与局部细节捕捉,提高小目标、模糊目标检测能力_哔哩哔哩_bilibili

YOLOv11模型改进讲解,教您如何根据自己的数据集选择最优的模块提升精度_哔哩哔哩_bilibili

 代码获取:https://github.com/tgf123/YOLOv8_improve

 5. LRSA 到YOLOv11中

第一: 将下面的核心代码复制到D:\model\yolov11\ultralytics\change_model路径下,如下图所示。

            ​​​​​​  

第二:在task.py中导入

 ​​​          

第三:在task.py中的模型配置部分下面代码

                   ​​​​​​​

第四:将模型配置文件复制到YOLOV11.YAMY文件中

       ​​​​​​​​​​​​​​​​​​​​​​​​​​​​ 

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码

from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorld
import torch
if __name__=="__main__":# 使用自己的YOLOv8.yamy文件搭建模型并加载预训练权重训练模型model = YOLO("/home/shengtuo/tangfan/YOLO11/ultralytics/cfg/models/11/yolo11_Low_Resolution_Self_Attention.yaml")\# .load(r'E:\Part_time_job_orders\YOLO\YOLOv11\yolo11n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO11/ultralytics/cfg/datasets/VOC_my.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = False)

 ​​​​​​​

http://www.xdnf.cn/news/16372.html

相关文章:

  • 10、Docker Compose 安装 MySQL
  • 动/静态库的原理及制作
  • 鸿蒙打包签名
  • Linux:线程同步与线程互斥
  • Vue 工程化
  • 重构vite.config.json
  • Linux Shell 命令
  • 设计模式(九)结构型:组合模式详解
  • 卷积神经网络研讨
  • 设计模式(三)创建型:抽象工厂模式详解
  • 3D芯片香港集成:技术突破与产业机遇全景分析
  • Cursor下利用Stagewise实现 “所见即改” 的前端开发体验~
  • Linux kill正在执行的后台任务 kill进程组
  • Cline与Cursor深度实战指南:AI编程助手的革命性应用
  • github上传本地项目过程记录
  • 【Datawhale AI夏令营】科大讯飞AI大赛(大模型技术)/夏令营:让AI理解列车排期表
  • 【计算机网络架构】网状型架构简介
  • 栈----4.每日温度
  • 226. 翻转二叉树
  • C语言(长期更新)第6讲:函数
  • (LeetCode 每日一题) 2210. 统计数组中峰和谷的数量 (数组)
  • 【RAG技术权威指南】从原理到企业级应用实践
  • Spring Boot音乐服务器项目-查询音乐模块
  • 【自动化运维神器Ansible】Ansible常用模块之archive模块详解
  • QT---概览
  • Spring AI 学习笔记
  • Datawhale 科大讯飞AI大赛(模型蒸馏)
  • 电科金仓 KingbaseES 深度解码:技术突破・行业实践・沙龙邀约 -- 融合数据库的变革之力
  • i节点学习
  • 7月27日星期日今日早报简报微语报早读