当前位置: 首页 > news >正文

CVPR2025 | 首个多光谱无人机单目标跟踪大规模数据集与统一框架, 数据可直接下载

论文介绍

题目:MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking

期刊:IEEE/CVF Computer Vision and Pattern Recognition Conference

论文:https://arxiv.org/abs/2503.17699

数据:https://github.com/q2479036243/MUST-Multispectral-UAV-Single-Object-Tracking

年份:2025

单位:北京理工大学

【遥感图像分类实战视频教程】 

这才是科研人该学的!基于深度学习的遥感图像分类实战,一口气学完图像处理、特征提取、分类算法、变化检测、图像配准、辐射校正等7大算法!通俗易懂,新手也能学会!https://www.bilibili.com/video/BV1SPExznEHe/?spm_id_from=333.337.search-card.all.click&vd_source=75de451a527a341260671f8dfa953400

创新点

提出了首个面向无人机多光谱单目标跟踪的大规模数据集(MUST),包含250个视频序列,涵盖12类真实挑战情境,填补了该领域的空白。

构建了统一融合光谱、空间和时间特征的跟踪框架(UNTrack),综合利用历史光谱提示、初始模板和连续帧信息,提高在复杂场景中的鲁棒性。

引入非对称注意力机制和光谱背景抑制模块,有效降低计算量,提升了目标定位的精度和效率。

设计了光谱提示编码器并结合参数迁移策略,使RGB预训练模型能有效适用于多光谱任务,大幅提升模型性能。

数据

MUST 数据集

  • 基本信息
    包含 250 个多光谱视频序列,共 42671 帧,分辨率为 1200×900,帧率 5 fps。

  • 光谱特征
    每帧图像具有 8 个波段,覆盖 390–950 nm,涵盖可见光与近红外,增强目标与背景的光谱可分性。

  • 挑战属性
    每个序列标注了 12 类跟踪挑战,如遮挡、快速运动、相似颜色、背景杂乱、出视野等,全面模拟真实无人机跟踪环境。

  • 采集与标注
    数据由无人机搭载多光谱相机采集,飞行高度 20–250 米。所有图像经几何与辐射校正,并由人工精确标注目标框和遮挡状态。

方法

本文提出了一种名为 UNTrack 的多光谱无人机目标跟踪框架。该方法通过统一建模光谱、空间和时间特征,提升在复杂场景下的跟踪鲁棒性与效率。整体结构包括三个主要模块:统一非对称Transformer、光谱提示编码器,以及预测头。

该模块的目标是从多个维度提取目标的判别特征,具体包括:

  • 输入信息:将历史帧的光谱提示、初始模板图像和连续搜索帧作为统一输入,构建一个融合的特征序列。

  • 非对称注意力机制:与标准Transformer不同,UNTrack只保留与目标定位密切相关的注意力路径,例如模板与搜索帧之间的交互,历史提示与搜索帧之间的交互等;而剪除掉冗余或干扰性的部分(如模板与提示之间的相互作用),以降低计算开销并减少噪声干扰。

  • 搜索序列输入:不同于只用当前帧进行搜索,UNTrack引入连续帧作为序列输入,从而更好地建模目标在时间上的连续性和运动轨迹。

2. 光谱背景消除机制

为减少背景干扰和计算成本,UNTrack在Transformer中嵌入了一个背景消除模块,流程如下:

  • 基于注意力结果判断图像中各区域与目标的相关性。

  • 只保留与目标高度相关的区域作为候选,其余区域视为背景并剔除。

  • 候选区域比例会在训练中动态调整,以适应不同场景下的目标显著性。

该机制利用多光谱信息增强了目标与背景的光谱差异感知,能够有效过滤外部干扰。

3. 光谱提示编码器

该模块用于生成并更新代表目标材料特征的光谱提示,具体做法如下:

  • 首先,将历史光谱提示与当前模板信息进行特征融合,提取目标的稳定光谱特征。

  • 使用 compression-excitation机制(通过轻量卷积和多层感知机)聚焦关键光谱通道,抑制冗余信息。

  • 最终输出一个紧凑的光谱向量,用作下一个时间点的跟踪输入,从而增强跨帧一致性。

该设计确保了模型能持续感知目标的“材料本质”,即使目标在颜色或外形上发生变化,也能维持准确跟踪。

4. 预测头与损失设计

UNTrack采用双分支预测头来同时进行目标定位与分类:

  • 一条分支用于输出目标位置的边界框。

  • 另一条分支用于输出每个候选区域是否为目标的置信度。

训练阶段使用了常见的分类损失与边界框回归损失,保证定位精度和分类准确性。

结果与分析

本文方法在多光谱无人机跟踪数据集上全面优于现有主流方法,表现出更强的鲁棒性和适应性。同时在多光谱和RGB通用数据集上也展现出良好的迁移能力,证明了其结构的通用性与效率。

【遥感图像分类实战视频教程】 

这才是科研人该学的!基于深度学习的遥感图像分类实战,一口气学完图像处理、特征提取、分类算法、变化检测、图像配准、辐射校正等7大算法!通俗易懂,新手也能学会!https://www.bilibili.com/video/BV1qYvaePEoE/?spm_id_from=333.337.search-card.all.click&vd_source=75de451a527a341260671f8dfa953400

http://www.xdnf.cn/news/488215.html

相关文章:

  • 前端面经 8 JS中的this 手写call apply bind方法
  • 将嵌入映射到 Elasticsearch 字段类型:semantic_text、dense_vector、sparse_vector
  • 火山引擎AI大模型
  • vue-router 中传递参数中的问题
  • 【基础】Windows开发设置入门3:在 Windows 11 上设置开发驱动器,提升性能速度
  • 适合使用分区表的典型业务场景
  • 用Python绘制动态樱花树(附完整源码解析)
  • React组件(一):生命周期
  • Linux下软件安装
  • C++ asio网络编程(7)增加发送队列实现全双工通信
  • Maven Deploy的依赖与引用方的依赖不同
  • 信奥赛-刷题笔记-队列篇-T4-P7912小熊的果篮
  • MySQL 数据库优化:InnoDB 存储引擎深度解析:架构、调优与最佳实践
  • 记录一个为打印高清而做投喂图像增强的例子
  • docker compose 启动指定的 service
  • MongoTemplate 基础使用帮助手册
  • 12条热门照片提示
  • XS9922C芯片:多能一体的视频处理强者,可p2p替代TP9930和TP9932,开启智能视觉新征程
  • Flask框架深度解析:蓝图、上下文机制与Jinja2模板引擎实战
  • ssh 配置了.ssh/authorized_keys 依旧需要密码的问题
  • 如何同时管理不同平台的多个账号?
  • 【第七节】ESP32-S3 霍尔传感器应用实战:磁场检测与蜂鸣器控制
  • 小学数学题批量生成及检查工具
  • PT2062单触控单输出LED调光IC
  • python报错:应为类型Union[str,int],但实际为None问题原因及解决方案
  • HGDB索引膨胀的检查与处理思路
  • 哈希表实现(1):
  • 【言语】刷题5(填空)
  • 2025-05-15 代码人生 - 精选文章周刊
  • Microsoft Azure 服务4月更新告示