当前位置: 首页 > web >正文

【2025ICCV-目标检测方向】WaveMamba:用于 RGB-红外目标检测的小波驱动曼巴融合

1. 背景与动机

RGB和红外图像在目标检测中具有互补特性:RGB图像在光照充足时提供丰富的纹理细节(高频特征),但在低光或恶劣天气下表现不佳;红外图像则依赖热辐射信息,在低光条件下鲁棒性强,但细节较少(低频主导)。现有融合方法(如CNN或Transformer-based)存在局限性:CNN难以捕获长距离依赖,Transformer计算复杂度高,且均未充分利用频率域的互补性。

 

如图1所示,通过离散小波变换(DWT)分析M3FD数据集,发现IR图像在低频子带(如LL)信息熵更高(富含结构信息),而RGB图像在高频子带(如LH、HL、HH)信息熵更高(富含边缘细节)。这验证了频域互补性,为设计高效融合方法提供了依据。


2. 方法细节

WaveMamba的整体架构包括三部分:双流特征提取骨干(集成DWT)、多级WaveMamba Fusion Blocks(WMFB)、改进的YOLOv8检测头(集成逆DWT, IDWT)。核心创新是WMFB,它针对低频和高频特征设计不同融合策略。

2.1 整体架构

 

http://www.xdnf.cn/news/17057.html

相关文章:

  • 从零开始实现Qwen3(Dense架构)
  • template<typename R = void> 意义
  • 构建企业级Web应用:AWS全栈架构深度解析
  • ⭐CVPR2025 FreeUV:无真值 3D 人脸纹理重建框架
  • IDEA查看源码利器XCodeMap插件
  • DMDRS产品概述和安装部署
  • 服务端⾼并发分布式结构演进之路
  • 每日面试题19:深拷贝和浅拷贝的区别
  • All the Mods 9 - To the Sky - atm9sky 局域网联机报错可能解决方法
  • 玩转 Playwright 有头与无头模式:消除差异,提升爬虫稳定性
  • 人声伴奏分离API:音乐智能处理的强大工具
  • 提升工作效率的利器:Qwen3 大语言模型
  • [LeetCode优选算法专题一双指针——有效三角形的个数]
  • Android 之 图片加载(Fresco/Picasso/Glide)
  • [硬件电路-140]:模拟电路 - 信号处理电路 - 锁定放大器概述、工作原理、常见芯片、管脚定义
  • 多模态大模型综述:BLIP-2详解(第二篇)
  • GraphRAG:基于知识图谱的检索增强生成技术解析
  • 【QT】常⽤控件详解(二)windowOpacitycursorfontsetToolTipfocusPolicystyleSheet
  • 设计模式学习[17]---组合模式
  • 使用 Docker 部署 Golang 程序
  • HoloLens+vuforia打包后遇到的问题
  • Android 之 MVP架构
  • SQL154 插入记录(一)
  • VUE工程化
  • 机器学习sklearn:支持向量机svm
  • 【Redis学习路|第一篇】初步认识Redis
  • WebRTC前处理模块技术详解:音频3A处理与视频优化实践
  • 企业自动化交互体系的技术架构与实现:从智能回复到自动评论—仙盟创梦IDE
  • 怎么修改论文格式呢?提供一份论文格式模板
  • 力扣 hot100 Day64