当前位置: 首页 > java >正文

深入剖析通用目标跟踪:一项综述

摘要

通用目标跟踪仍是计算机视觉领域一项重要且具有挑战性的任务,其难点在于复杂的时空动态变化,尤其在存在遮挡、相似干扰物和外观变化的情况下。过去二十年间,为应对这些挑战,研究者提出了多种跟踪范式,包括基于孪生网络的跟踪器、判别式跟踪器以及近期突出的基于Transformer的方法。尽管现有综述论文或聚焦单一类别,或广泛覆盖多类以追踪进展,但本文对三类方法均进行了全面综述,尤其强调快速发展的基于Transformer的方法。我们通过定性与定量比较,分析了各类方法的核心设计原则、创新点及局限性。本研究提出了一种新的分类方式,并提供了代表性方法的统一可视化与表格对比。此外,我们从多角度梳理现有跟踪器,总结主要评估基准,突出基于Transformer的跟踪方法因其强大的时空建模能力而取得的快速进展。

关键词:通用目标跟踪,基于孪生网络的跟踪器,基于判别式的跟踪器,基于Transformer的跟踪器

1 引言

视觉目标跟踪(VOT)是计算机视觉中持续在视频帧间定位目标物体的任务。多年来,已发展出多种跟踪范式,包括通用目标跟踪(GOT)、多目标跟踪、基于运动的跟踪、基于外观的跟踪以及视频目标分割等。本文聚焦通用目标跟踪(GOT),也称单目标跟踪(SOT),其以与类别无关的方式运行。在此设定下,跟踪器在首帧接收目标的初始标注(通常为边界框),并需在后续所有帧中定位目标,无需额外监督。

基于外观模型的通用目标跟踪面临若干基本挑战,包括目标外观、尺度、姿态的变化,以及遮挡、形变、运动模糊、干扰物和背景杂波的存在。尽管存在这些困难,基于外观的跟踪方法因其广泛的适用性(如自动驾驶、视频监控、医学诊断和机器人导航等领域)而受到越来越多的关注。
在这里插入图片描述

如图1所示,跟踪算法的演进始于手工设计的判别式方法,其依赖相关滤波器和在线优化以区分目标与背景[1-4]。随着深度学习的兴起,判别式跟踪器开始引入卷积神经网络(CNN)进行特征提取,常用于训练分类器或回归器以区分目标与背景[5-11]。另一方面,基于孪生网络的跟踪器通过计算初始目标与候选区域的相似度得分,实现模板匹配[12-21]。这两类范式并行发展,重点通过更深的骨干网络[13]、干扰物感知机制[4,11,13]和先进的模型更新策略[9,11]来提升鲁棒性、适应性和外观建模能力。

近年来,随着Transformer架构的引入,该领域取得了更显著的进展。Transformer通过自注意力与交叉注意力机制,实现了对空间和时间依赖性的强大全局建模。如图1的时间线所示,许多先进跟踪器现已采用Transformer,既可作为独立模型[22-44],也可作为融合Transformer模块与判别式或孪生组件的混合架构[45-50]。本综述回顾并分析了三类主要方法的代表性工作:I. 基于判别式的跟踪器,II. 基于孪生网络的跟踪器,III. 完全基于Transformer和混合Transformer的跟踪器。

在强调近期进展的同时,我们也纳入了早期基础工作,以追溯设计策略和架构趋势的演进。据我们所知,这是首篇联合综述并比较这三类通用目标跟踪器的综合性论文,涵盖多维度分析,包括外观建模、设计亮点、更新策略和整体跟踪框架。此外,我们系统分析了各类方法解决的挑战、为克服挑战提出的创新点、可能引入的缺陷,以及它们在模型架构中的贡献层级。除架构与方法学比较外,我们还分析了常用训练与评估数据集。通过重构代表性跟踪器的标准化架构图,我们进行了结构化对比,便于直接可视化分析其设计原则与创新点。

本研究的主要贡献如下:

  • I. 跟踪范式的综合分类
    我们提出了一种统一的分类体系,将GOT跟踪器系统地划分为三类核心范式:基于孪生网络的、基于判别式的、完全及混合Transformer的。据我们所知,这是首篇联合分析这三类方法(包括基础与近期方法)的综述,提供了比现有综述更广泛、更包容的视角。

  • II. 统一架构框架的结构化对比
    对于每类代表性跟踪器(包括仅理论探讨的方法),我们重构了标准化的可视化框架,以促进一致的结构分析。通过突出关键架构元素并清晰展示各类范式间的设计演进,这种统一表示使跟踪器设计的直接比较更加便捷。

  • III. 多维度比较分析与性能对比
    我们从多维度(如外观模型、骨干架构、设计亮点、重点和创新贡献)对跟踪器进行了彻底分析。系统考察了各类方法解决的挑战、为克服挑战提出的创新点,以及可能引入的缺陷。此外,我们分析了用于训练与评估的跟踪数据集,并比较了跟踪器的性能,阐明了准确性与效率之间的权衡。

本文其余部分组织如下:第2节回顾GOT领域的现有综述论文,并突出本研究的差异。第3节概述GOT方法,将其划分为四类:判别式跟踪器(3.1节)、孪生网络跟踪器(3.2节)、Transformer跟踪器(3.3节),其中Transformer跟踪器进一步分为混合式(3.3.1节)和完全Transformer式(3.3.2节)。第4节总结了常用跟踪数据集与评估指标,并从准确性和效率角度对综述的跟踪器进行了评估与比较。第5节从架构与功能视角对GOT方法进行了综合讨论,重点介绍了近期先进设计和新兴趋势(如分割辅助跟踪)。第6节讨论了VOT的应用。最后,第7节总结全文并展望未来研究方向。

在这里插入图片描述

2 背景

通用视觉目标跟踪(GOT)已得到广泛研究,若干综述回顾了其从传统方法到深度学习及更高阶技术的发展历程,如表1所示。

Marvasti-Zadeh等人[51]分析了基于深度学习的跟踪器,包括基于卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)的方法,覆盖多个维度。但其对架构设计的分类不够详细。[52]以时间线为视角,将跟踪器分为相关滤波类与深度学习类模型(含CNN、RNN及基于孪生网络的跟踪器)。Li等人[53]详细探讨了深度学习如何解决跟踪中的四大核心挑战,并综述了单目标与多目标跟踪方法,但缺乏架构层面的深入分析。[54]聚焦跟踪器的在线更新策略,强调动态环境适应性的重要性,但其研究主要针对传统与基于CNN的孪生网络及判别式跟踪器,尤其关注跟踪过程中的自适应能力。

研究[55]特别关注判别相关滤波器(DCF)与孪生网络两大主流范式,仅对此两类方法的共性与特异性挑战进行了详细分析。[56]则将范围缩小至基于孪生网络的跟踪,深入考察其设计原则、优势与局限性,未涉及判别式及基于Transformer的方法。Zhang等人[57]采用了更广泛的视角,涵盖基于孪生网络、判别式及早期Transformer的模型,但未对各类范式的架构与方法创新进行明确细分。

此外,Thangavel等人[58]对基于Transformer的跟踪器进行了实验分析,将其分为CNN-Transformer混合模型与完全基于Transformer的跟踪器,但未系统比较此类方法与传统判别式或孪生网络范式的差异。最后,Abdelaziz等人[59]探索了非传统方法,如自回归模型、生成模型、自监督学习、强化学习及元学习在跟踪中的应用,虽突出了新兴方向,但未涉及标准跟踪架构或范式的演进。

现有综述虽为特定范式(如DCF、孪生网络或基于Transformer的跟踪器)或新兴学习范式提供了重要见解,但据我们所知,尚无综述提出统一分类体系,系统性涵盖GOT跟踪器的所有主要范式:基于孪生网络的、基于判别式的及完全/混合Transformer模型。此外,现有研究也未从多维度(如外观建模、骨干架构、模板更新策略、创新贡献、缺陷及架构级创新)对跟踪器进行全面分析。

本综述填补了这一空白,通过引入统一、细粒度的分类与比较框架,覆盖近期GOT跟踪器的所有主要类别。我们提供了跨范式的一致性结构分析,系统比较了各类方法在准确率与效率间的经验权衡,并指出了现代目标跟踪中的趋势、挑战与开放研究方向。

3 通用视觉目标跟踪

基于检测的通用视觉目标跟踪旨在估计视频序列中任意目标对象的轨迹,仅需首帧给定的初始位置。过去十年间,GOT技术为应对遮挡、目标形变、尺度变化、光照变化及背景干扰等关键挑战,取得了显著进展。因此,跟踪算法需兼顾目标表征的短时与长时自适应,以保持对剧烈外观变化的鲁棒性。

跟踪问题可分解为分类任务与目标状态估计任务的结合[8]。分类分支旨在鲁棒确定目标的粗略位置,状态估计分支则细化预测以准确获取完整目标状态(通常用边界框表示)。高性能跟踪器需学习兼具判别性与泛化性的特征表示及对应分类器:判别性使跟踪器能区分真实目标与杂乱或欺骗性背景区域,泛化性则使其能容忍被跟踪对象的外观变化(即使目标类别未知)[15]。

与计算机视觉其他领域类似,跟踪方法已从依赖手工特征演进为利用深度特征,近期更发展为基于Transformer的表征。本综述根据核心在线学习机制,将现代GOT跟踪器分为三大范式:

  1. 判别式跟踪器:通过判别式公式构建外观模型,近期进展利用离线训练的更具代表性特征显著提升了准确率。
  2. 基于孪生网络的跟踪器:通过离线训练学习对外观变化鲁棒的特征表示,推理时提取模板与搜索区域的特征,并通过固定匹配操作(如互相关)定位目标。
  3. 基于Transformer的跟踪器:通过建模长程依赖提升跟踪性能,Transformer模块可与孪生网络或判别式结构以混合方式集成,或构成完全基于Transformer的跟踪架构。

底层架构对跟踪的鲁棒性、效率与适应性起关键作用。各范式内方法的演进旨在解决关键问题,如在线自适应、代表性特征提取、准确目标状态估计、鲁棒外观建模、有效干扰物处理及可靠匹配策略。以下小节将回顾各类别的代表性方法,突出其架构创新、优势与局限性。

3.1 基于判别式的跟踪

判别式跟踪器将跟踪问题建模为二分类任务,通过区分目标与背景实现定位。此类方法的核心是构建外观模型(如相关滤波器或卷积层),通过最小化判别损失函数训练模型,以区分包含目标的正样本与背景区域的负样本。判别式跟踪的关键特性在于推理阶段的在线学习与模板更新,使其能实时适应外观变化、遮挡及环境变化。早期判别式跟踪器多依赖手工特征(如方向梯度直方图HOG)和简单分类器(如支持向量机或岭回归),后续方法逐渐转向深度特征与优化驱动的预测模型。以下介绍最具代表性的判别式跟踪器,其架构通过统一框架呈现以便比较,表2详细列出了这些方法的时间演进与关键参数。

基于相关滤波器(CF)的跟踪器:此类方法通过在线训练判别式分类器实现目标与背景的区分,利用跟踪过程中采集的样本动态适应目标外观变化。相关滤波器通过求解岭回归问题,学习一个线性模板以区分目标区域与周围背景。其核心创新在于利用快速傅里叶变换(FFT)在频域进行计算,利用循环相关性质实现高效滤波器训练与更新(通常每帧一次)。推理时,相关滤波器作用于首帧目标位置周围的小搜索窗口,通过响应图的最大值确定目标新位置。每帧结束后,CF跟踪器在线更新滤波器权重,使模型动态适应目标的光照与几何变化。部分CF方法还通过选择最高相关输出的尺度,同时估计目标位置与尺度。相关滤波类跟踪器的突破在于,在保持计算效率(依赖频域操作)的同时,实现了与当时最先进方法相当的精度。

最小输出平方误差(MOSSE)跟踪器[1]:是最早的CF类跟踪器之一,提出了一种简单且实时的跟踪方法,对尺度变化、光照、姿态及非刚性形变具有鲁棒性。相较于早期依赖复杂外观模型与优化策略、速度较慢的相关滤波方法,MOSSE引入了更高效的自适应跟踪框架,仅需单帧训练相关滤波器,显著降低了数据需求(如ASEF[60]需大量训练样本)。MOSSE可视为ASEF的正则化变体,通过最小化输出平方误差并引入在线自适应机制,提升了稳定性与鲁棒性。

核化相关滤波器(KCF)[2]:延续了MOSSE的实时自适应框架,通过引入核技巧提升判别能力与特征表示。KCF利用图像块的循环结构,结合离散傅里叶变换(DFT)降低存储与计算复杂度,即使采用更丰富的特征(如HOG)也能保持实时性能。

MDNet[5]:针对手工特征在鲁棒目标表示中的局限性,提出了基于CNN的判别式跟踪器。不同于直接使用预训练分类网络(因分类与跟踪任务域存在差异),MDNet采用多域学习框架,分离领域无关与领域特定信息。离线训练时,共享卷积层跨多视频序列学习,而独立分支训练二分类任务。推理时,初始化并微调新的领域特定分支,实现目标与背景的区分。

空间正则化判别相关滤波器(SRDCF)[3]:针对标准DCF因循环卷积假设导致的边界伪影问题,引入空间正则化项,根据滤波器系数的空间位置施加惩罚。这使模型能从更大图像区域(含丰富负样本)学习,同时聚焦目标区域。为保持计算效率,利用频域正则化的稀疏性,结合高斯-赛德尔迭代法进行在线优化。

DeepDCF[6]:研究如何将预训练卷积层的激活值融入相关滤波跟踪器,替代传统手工特征。在标准DCF与SRDCF框架中验证深度特征,发现浅层卷积层(如第一层)比深层特征更适用于跟踪。这一发现表明,空间细节与语义信息的结合对视觉跟踪至关重要,且深度特征(如HOG、颜色名)能带来持续改进。

CFNet[7]:不同于传统孪生跟踪器(如SiamFC通过静态模板匹配),CFNet在浅层孪生网络中嵌入在线相关滤波层作为可微分模块,实现跟踪模型与特征表示的端到端学习。通过滑动平均更新模板,提升对外观变化的适应能力。其核心创新是将相关滤波视为闭式优化块,通过反向传播嵌入网络,在保持高速与效率的同时,学习适用于相关跟踪的特征。

背景感知相关滤波器(BACF)[4]:针对传统CF跟踪器仅学习循环移位目标块、忽视真实背景信息导致过拟合与复杂场景下判别力不足的问题,BACF提出密集采样真实背景块作为负样本,学习更优的前景-背景区分滤波器。结合交替方向乘子法(ADMM)优化多通道滤波器,在保持实时性能的同时无需深度特征。

图2展示了早期判别式跟踪器的架构概览,涵盖核心组件与关键趋势,包括特征提取、分类、更新机制及创新点。

ATOM[8](如图3所示):针对早期判别式跟踪器(如[2-4])仅依赖多尺度搜索而未建模目标特定外观或长宽比变化的问题,提出双流架构分离目标分类与状态估计。分类分支采用轻量级卷积网络,通过共轭梯度策略在线优化;状态估计模块离线训练,预测候选框与目标框的交并比(IoU)得分。通过特征调制整合目标特定信息,ATOM在姿态与视角变化下实现了可靠的边界框估计。

DiMP[9](如图3所示):针对判别式跟踪器背景信息利用不足导致目标-干扰物区分能力弱的问题,将目标模型学习建模为优化问题。目标模型表示为通过最陡下降法迭代的卷积层,结合离线训练的元学习优化器,利用当前帧的正样本与密集采样的负样本(含背景)在线更新模型。这使DiMP能快速构建鲁棒的目标特定分类器,适应外观变化与未见目标,同时保持强目标-背景分离能力。此外,DiMP集成并行IoU预测分支以提升边界框精度。

PrDiMP[10](如图3所示):在DiMP[9]基础上,将目标中心定位与边界框回归建模为概率回归任务。不同于置信度评分方法(预测标量值),PrDiMP通过网络架构直接建模目标状态的条件概率密度,无需预设分布。通过最小化预测与标签分布的KL散度,模型能处理标注噪声与状态不确定性。概率公式提升了遮挡、模糊及相似干扰物场景下的鲁棒性。

KeepTrack[11]:针对干扰物鲁棒性问题,提出显式目标候选关联机制,而非仅依赖更强的外观模型。扩展DiMP[9]框架,集成DiMP的目标分类器与PrDiMP[10]的概率边界框回归器。如图3所示,通过学习目标候选关联网络,结合位置、评分与外观特征关联跨帧候选。结合自监督训练策略与部分标签,构建图结构候选嵌入网络捕捉邻近候选关系。在线更新时,通过记忆样本置信度机制评估训练样本可靠性,减少不可靠样本影响,提升干扰物场景下的适应性。

图片
图2:早期判别式跟踪器框架的视觉概览,展示从手工特征(如MOSSE[1]、KCF[2]、SRDCF[3]、BACF[4])到卷积神经网络(CNN)的演进,包括预训练骨干网络(DeepDCF[6]、CFNet[7]、MDNet[5]),并对比外观建模与在线更新策略的差异。
3.2. 基于孪生网络的跟踪

基于孪生网络的跟踪器是通用目标跟踪的重要范式,其核心是将跟踪建模为目标模板与搜索区域的相似性匹配问题。典型孪生网络包含两个共享权重的分支:模板分支处理首帧目标块,搜索分支处理当前帧区域。两分支通过共享骨干网络将输入嵌入公共特征空间,通过计算相似性(如互相关)定位目标。此类方法通过大规模数据集离线训练,学习通用的相似性匹配函数,无需在线自适应即可实现快速推理。孪生网络跟踪器通过创新回归头、更新机制、更深骨干网络及注意力模块,持续提升鲁棒性与精度。其平衡高速推理与竞争力的特点,使其成为现代跟踪系统的重要组成部分。以下介绍代表性孪生跟踪器,其架构通过统一框架呈现以便比较,表3详细列出了这些方法的时间演进与关键参数。

SiamFC[12]:提出全卷积孪生网络,通过大规模视频数据集端到端训练,学习通用的相似性函数。网络包含两个相同分支,分别提取模板与搜索区域的特征,通过互相关层生成密集响应图以定位目标。该架构通过单次前向传播实现滑动窗口匹配,结合多尺度搜索金字塔处理尺度变化,并引入余弦窗抑制干扰物、平滑定位。尽管缺乏在线自适应,SiamFC仍实现了实时高性能,奠定了后续孪生跟踪器的基础。

DSiam[64]:针对SiamFC无法动态适应外观变化与背景干扰的问题,引入动态变换学习模块。该模块通过频域学习的卷积映射,实时调整模板与搜索特征,无需替换模板即可实现自适应。结合多层级特征融合(浅层与深层),提升定位鲁棒性。不同于传统孪生跟踪器基于图像对的训练,DSiam通过完整视频序列联合训练,利用时空动态信息,在复杂场景下比静态孪生模型(如SiamFC)表现更优。

SA-Siam[15]:提出双流孪生网络,结合外观与语义特征提升SiamFC的泛化能力。网络包含独立训练的外观分支与语义分支:外观分支保留SiamFC结构,聚焦相似性学习;语义分支提取预训练分类网络的高层语义特征。两分支仅在推理时融合,生成综合相似度评分。语义分支通过通道注意力机制,结合目标与周围上下文信息,实现最小但有效的目标自适应。该模型在保持实时性能的同时,提升了外观变化场景下的鲁棒性。

图4对比了上述分类型孪生跟踪器(SiamFC[12]、DSiam[64]、SA-Siam[15])的架构,突出多层级特征融合、注意力模块及在线精修机制的创新。

SiamRPN[13]:在孪生网络中引入区域建议网络(RPN),提升跟踪精度与鲁棒性。通过模板与搜索分支的RPN模块,实现前景-背景分类与边界框回归,替代SiamFC的多尺度搜索策略。跟踪被建模为局部单次检测任务,模板分支作为元学习者生成搜索分支的检测核。端到端离线训练结合建议框精修,构建了紧凑高效的跟踪流水线。

DaSiamRPN[20]:针对通用跟踪中语义与非语义背景样本失衡的问题(语义干扰物样本不足),提出干扰物感知的离线采样策略。通过引入同/跨类别的语义负样本对,训练更具判别性的表征。推理时,结合硬负样本挖掘与改进的相似度函数,动态抑制干扰物。采用局部到全局的搜索策略,通过逐渐扩大搜索区域实现长时跟踪与目标重新检测。

SiamRPN++[17]:解决早期孪生跟踪器因严格平移不变性无法使用深层骨干(如ResNet[62])的问题,提出空间感知采样策略打破平移不变性,实现端到端深层网络训练。结合多层级(ResNet不同层)特征聚合,提升运动模糊、形变等场景下的鲁棒性。聚合特征通过三个孪生RPN模块,并赋予分类与回归不同的融合权重。针对SiamRPN中跨通道互相关的参数失衡问题,提出深度互相关模块,减少参数数量、稳定训练,并生成通道分离的相似度图以提升精度。

SiamFC++[16]:在SiamFC基础上提出实用准则,优化通用目标跟踪的精确状态估计。模型分离分类与回归分支,解耦粗定位与精修边界框,避免暴力多尺度搜索。采用无锚点的逐像素估计策略,消除先验尺度与长宽比假设的歧义。引入质量评估分支,预测边界框可靠性得分,解决分类置信度高但定位差的问题。该分支生成并行质量图,调制最终跟踪决策。SiamFC++在保持架构简单与通用性的同时,实现了实时高精度跟踪。

图5对比了含定位头的孪生跟踪器架构,突出多层级特征融合、互相关类型、回归头及在线更新机制的创新,展示孪生网络为适应准确定位、在线自适应及干扰物处理而增加的功能与复杂度。

SiamBAN[14]:针对视觉跟踪中精确状态估计的挑战,提出无锚点框架,消除预定义候选框与多尺度搜索。模型在相关特征图的每个空间位置预测前景-背景评分与4D偏移向量(描述边界框)。该无锚点设计减少了超参数依赖,提升了模型对尺度与长宽比变化的适应性。结合多层级预测与深度互相关,实现端到端离线训练的高效与精确。

Siam R-CNN[19]:提出两阶段孪生网络重新检测框架,通过全图搜索与动态规划算法(TDPA)实现长时跟踪。不同于依赖局部搜索窗口的孪生跟踪器,Siam R-CNN在全帧进行重新检测。第二阶段通过ROI对齐特征与首帧模板的比较,利用三阶段级联重新检测头确定目标相似度。TDPA联合当前帧与前一帧的重新检测结果,形成时空轨迹,实现鲁棒的目标关联与长期干扰物抑制。此外,引入硬负样本挖掘策略,从其他视频中提取相似目标提升重新检测的判别力。该离线训练策略对长时跟踪中的显著外观变化与遮挡具有强鲁棒性。

SiamAttn[18]:针对孪生跟踪器固定模板与独立特征提取的局限,引入变形孪生注意力(DSA)模块。DSA集成变形自注意力与跨注意力,增强特征表示:自注意力通过通道与空间操作建模帧内上下文,跨注意力聚合模板与搜索区域的交互依赖,隐式更新模板以适应外观变化、遮挡与背景干扰。此外,引入区域精修模块,对注意力增强的特征进行深度互相关,融合多层级特征以精修边界框与分割掩模。

Ocean[65]:提出目标感知的无锚点跟踪框架,解决锚点型孪生跟踪器因预定义锚框与目标重叠差导致的性能瓶颈。通过直接回归目标位置与尺度(基于真实边界框内所有像素的密集预测),提升弱预测场景下的定位精度。引入目标感知特征对齐模块,将特征采样与预测边界框对齐,生成全局与局部特征(全局特征提升分类可靠性,局部特征捕捉细节),融合后获得鲁棒目标表示。推理时支持在线模型更新,平衡锚点自由回归与目标感知分类的优势,实现复杂动态环境下的高鲁棒性与实时性能。

ECIM[66]:针对孪生跟踪器互相关模块忽视通道重要性与局部空间信息的问题,提出高效相关信息融合器,将互相关分解为深度互相关(DCC)与点互相关(PCC),分别捕捉通道语义信息与细粒度局部上下文。通过通道与空间注意力机制融合两类相关图,提升分类与无锚点状态估计的最终表示质量。该方法在复杂场景下提升了鲁棒性与判别力,同时保持低计算开销。

SiamDMU[21]:针对孪生跟踪器模板固定导致的外观变化适应能力不足问题,提出双掩模模板更新策略。基于SiamRPN++框架,包含孪生匹配模块与模板更新模块(TUM)。TUM由掩模增强块(MEB)与模板更新块(TUB)组成:MEB利用语义分割与长时运动信息,按固定间隔精修基础模板与跟踪输出;TUB通过增强表示在图像层级更新模板,保留特征层级更新易丢失的高分辨率空间细节。该策略在严重外观变化下实现鲁棒跟踪,同时保持轻量化与易训练特性。最终跟踪结果通过区域建议网络头(配对互相关)生成。

图6对比了更先进的孪生跟踪器架构,突出互相关操作、记忆集成与在线更新机制的创新,展示孪生网络为提升在线自适应与模型判别力而增加的功能与复杂度。

图片
图4:早期分类型孪生跟踪器框架的视觉概览(SiamFC[12]、DSiam[64]、SA-Siam[15]),突出多层级特征融合、注意力模块及在线精修机制的创新。
图片
图5:含定位头的孪生跟踪器框架视觉概览,突出更先进的孪生方法(如SiamRPN++[17]、SiamBAN[14]、SiamAttn[18])通过多层级特征融合、深度互相关及回归头提升定位精度的创新。
图片
图6:更先进孪生跟踪器框架的视觉概览,突出Ocean[65]的在线更新、SiamDMU[21]的记忆集成及ECIM[66]的新型互相关操作等创新。
3.3. 基于Transformer的跟踪方法

在讨论完基于判别式和孪生网络的跟踪器后,我们现在探讨近年来快速发展的基于Transformer的跟踪技术。自Transformer在自然语言处理(如机器翻译)中引入以来,其在视觉任务(如语义分割、目标检测、图像分类和点云分析)中取得了显著成果[58]。孪生网络跟踪器主要关注空间信息进行跟踪,而在线方法通过历史预测进行模型更新,但两者均缺乏显式机制来联合建模时空关系[22]。Transformer通过注意力机制建模帧内和帧间依赖关系的能力,使其特别适合视觉跟踪。与依赖局部感受野的CNN不同,Transformer通过全局注意力捕捉长程上下文信息[71]。基于Transformer的跟踪方法利用编码器-解码器架构、自注意力和交叉注意力等关键组件,增强特征表示和目标定位能力。更多细节可参考[58, 72, 73]。我们将基于Transformer的跟踪器分为两大类:完全基于Transformer的跟踪器(基于Transformer原理构建全新架构,超越传统跟踪范式)和混合Transformer跟踪器(通过添加Transformer模块扩展孪生网络或判别式框架以提升性能)。

3.3.1. 混合Transformer跟踪器

近年来,Transformer在自然语言处理中的成功推动了其在现有跟踪框架中的集成。在通用目标跟踪(GOT)领域,已出现多种通过Transformer组件增强孪生网络或判别式跟踪器的方法,本文称为混合Transformer跟踪器。通过在特征融合、预测模型等阶段引入Transformer块,这些方法旨在解决CNN设计中的局限性,如有限感受野、全局上下文建模不足或特征交互较弱,从而提升对干扰物和遮挡的鲁棒性,增强目标-背景区分能力和长程依赖建模能力。本节通过分析关键混合Transformer跟踪器,突出其如何将Transformer集成到跟踪流程中、解决的具体挑战及创新点,并给出架构示意图。此外,表4总结了混合Transformer跟踪器的重要特性。

TransT [45](图7)是早期将Transformer架构引入GOT的尝试。它完全替代了孪生框架中基于相关的特征融合方式,采用纯注意力设计以更好地捕捉全局上下文,并在模板与搜索区域特征融合过程中保留语义信息。TransT的核心是其特征融合网络,由基于多头自注意力的上下文增强(ECA)模块和利用多头交叉注意力的跨特征增强(CFA)模块组成。这些组件通过重复应用逐步增强定位能力和边界感知。ECA模块丰富各分支内的特征表示,而CFA模块实现模板与搜索特征的深度交互。此设计使TransT在遮挡、外观变化和相似物体干扰下具有鲁棒性能。

Image
图7:TransT [45]的视觉概览,一种混合Transformer跟踪框架,将Transformer集成到孪生架构的关系建模阶段。

传统跟踪器常独立处理视频帧或依赖弱启发式方法(如余弦窗或帧间更新)引入时间信息,但无法捕捉深层时序依赖。TrDiMP和TrSiam [46]通过将Transformer架构扩展到判别式和孪生跟踪器中,解决了这一问题。其设计了一个并行编码器-解码器Transformer框架:编码器通过自注意力增强多帧模板特征,解码器将历史模板的空间掩模和特征传播到当前搜索区域。为保持分支间一致性,编码器和解码器的注意力权重共享,并采用轻量级单头注意力设计以确保计算效率。该架构可泛化到孪生网络和判别式跟踪流水线,生成TrSiam和TrDiMP变体。两种跟踪器均提升了对外观变化和遮挡的鲁棒性,受益于改进的时序建模、在线模板更新和完全端到端训练。

基于优化的判别式跟踪器(如DiMP [9])依赖于对有限历史帧的刚性目标最小化,由于存在归纳偏置,模型灵活性受限,且无法在预测阶段融入测试帧信息。ToMP [47]通过设计一个可建模训练帧和测试帧全局上下文的Transformer预测器来解决此问题。此设计支持传导式目标模型预测,并通过基于注意力的推理丰富特征表示。此外,ToMP通过编码目标位置和范围,将空间先验注入训练特征,使Transformer能更有效地从背景区域建模目标。进一步地,ToMP通过统一的Transformer解码器并行预测目标分类和边界框回归的权重,这些权重随后应用于全局增强的测试帧特征,实现鲁棒定位和精确目标估计。该架构在基于优化的方法和Transformer增强的跟踪器上均取得了显著改进。

在许多实际场景中,需要同时跟踪多个任意目标。TaMOs [48]通过将ToMP [47]扩展到多目标通用跟踪,解决了这一挑战。其设计了一个基于Transformer的架构,可处理全帧输入并通过共享计算联合预测多个目标模型。此外,TaMOs采用全局搜索策略,通过构建所有目标的统一特征表示,而非依赖每个目标的局部裁剪。为提升小目标定位精度,其通过特征金字塔网络(FPN)增强Transformer编码器输出,融合低分辨率测试帧特征与高分辨率主干特征。同时,TaMOs提出了一种新型多目标编码策略,每个目标关联唯一可学习嵌入,Transformer解码器基于这些嵌入预测目标特定模型。此共享跟踪流水线实现了稳健的跨目标推理,减少了计算冗余,并提升了复杂场景下对干扰物的鲁棒性。作者还提出了大规模多目标通用跟踪基准LaGOT,基于GOT框架[74],支持真实场景下高效跟踪器的开发。图8展示了判别式跟踪器中Transformer的集成方式。

CMAT [49](图9)提出了一种新型视觉跟踪特征提取主干网络,将CNN和Transformer范式在统一架构中集成,以利用两者的互补优势。其设计了一个聚合模块CMATagg,结合卷积层捕捉局部信息和自注意力建模全局依赖。CMAT包含一个深度可分离卷积混合器,基于深度卷积和点态卷积,以最小化局部冗余并提升效率。通过共享模板和搜索分支的投影操作,避免重复计算并提升表示质量。随后,卷积路径和自注意力路径的输出通过可学习权重融合,并添加dropout层以增强泛化能力,避免过拟合。最终架构有效提取了细粒度局部特征和广泛上下文特征,无需在线更新或跟踪时自适应模型调优。

本节强调了Transformer模块如何赋能更自适应、上下文感知和可扩展的跟踪架构,解决了先前跟踪器的根本缺陷,如静态模型权重、有限时序上下文和低效的单目标计算。

表4:混合Transformer跟踪器详细对比
贡献层级
模型架构
外观建模
模板更新
特征表示
特征融合
外观建模
模板更新
是否支持在线更新
特征表示
特征融合
外观建模
模板更新
是否支持在线更新
缺点
模型复杂度较高;
未完全解决模板更新问题
缺点
模型复杂度较高;
未完全解决模板更新问题
创新点
时空上下文建模;
注意力机制融合;
全局背景抑制
创新点
在线日期预测;
通过解码器联合预测分类器和回归器;
基于测试帧的上下文使用
主干网络
ResNet-50/Swin-62
年份
2021
方法
TrDiMP/TrSiam[46]
TrDiMP/TrSiam[46]
TaMOs[48]
ToMP[47]
CMAT[49]
外观模型
Transformer辅助
特征表示
特征融合
外观建模
模板更新
是否支持在线更新
特征表示
特征融合
外观建模
模板更新
是否支持在线更新
特征表示
特征融合
外观建模
模板更新
是否支持在线更新
缺点
模型复杂度较高;
未完全解决模板更新问题
缺点
模型复杂度较高;
未完全解决模板更新问题
创新点
时空上下文建模;
注意力机制融合;
全局背景抑制
创新点
在线日期预测;
通过解码器联合预测分类器和回归器;
基于测试帧的上下文使用
主干网络
ResNet-50/Swin-62
年份
2021
方法
TrDiMP/TrSiam[46]
TrDiMP/TrSiam[46]
TaMOs[48]
ToMP[47]
CMAT[49]
外观模型
Transformer辅助
Image
图8:TrDiMP [46]、TOMP [47]和TaMOs [48]等混合Transformer跟踪器的视觉概览。该图展示了如何将Transformer集成到判别式架构的关系建模阶段,并突出通过多目标编码和目标模型定义,将单目标跟踪扩展到多目标跟踪[48]。
3.3.2. 完全基于Transformer的跟踪器

与在传统孪生网络和判别式跟踪架构中应用Transformer模块的混合跟踪器不同,完全基于Transformer的跟踪器不依赖于这些先前范式,而是从零开始构建独立的Transformer架构。尽管部分方法可能包含卷积层,但它们不遵循孪生匹配或判别式学习的结构原理。此类跟踪器在特征编码、关系建模、特征融合和预测等整个跟踪流程中,均以自注意力和交叉注意力作为基础模块。根据架构设计,完全基于Transformer的跟踪器可分为两大类:I. 卷积-注意力跟踪器(结合卷积先验与Transformer推理)和II. 纯注意力跟踪器(完全依赖注意力机制)。本节详细回顾这两类方法,突出其设计选择、目标表示策略和关系建模技术。

卷积-注意力Transformer跟踪器:以下为该领域代表性方法,其架构以统一方式呈现以便比较,表5提供了详细对比。

Image
图9:CMAT [49]混合Transformer跟踪框架的架构概览,展示了如何在特征提取和关系建模阶段应用Transformer。

卷积跟踪器仅能有效建模局部时空邻域信息,难以捕捉长程依赖,导致在大尺度目标变化、遮挡等场景下鲁棒性不足。Yan等人[22]提出的STARK模型(图10)通过编码器-解码器Transformer架构解决了这一局限。其编码器通过联合处理初始模板、动态更新模板和当前搜索区域的特征,利用多头自注意力增强特征的长程时空编码,捕捉全局上下文关系。轻量级解码器学习单个查询嵌入,关注编码特征以预测空间位置。对于边界框预测,STARK提出全卷积角点预测头,直接估计左上角和右下角概率分布,无需预设锚框或复杂后处理。置信度评分头控制模板动态更新,确保仅在可靠时进行适应。此端到端框架简化了跟踪流水线,同时提升了准确率和速度。

现有Transformer跟踪器在像素级注意力计算中常破坏目标完整性,丢失相对位置信息,导致在复杂场景中难以准确匹配目标。CSWinTT [27](图11)通过引入多尺度循环移位窗口注意力机制解决了这一问题。受Swin Transformer[75]启发,CSWinTT将模板和搜索特征划分为窗口,并在整个窗口间执行注意力计算,从而保留目标结构,实现不同尺度下更局部化但稳健的匹配。每个Transformer头处理特定窗口尺度,支持细粒度到粗粒度的匹配粒度。为进一步提升精度,CSWinTT提出循环移位策略,通过循环平移窗口生成多样化样本,同时使用空间正则化注意力掩模抑制边界伪影。此外,通过三种效率优化减少冗余计算,实现实时跟踪。融合的多尺度特征通过角点预测头生成最终边界框。

Transformer跟踪器的注意力权重常因独立计算查询-键相关性而包含噪声和歧义,导致不可靠的注意力,尤其在背景杂乱或特征表示不完善时。AiATrack [28](图12)通过引入新型注意力-注意力(AiA)模块解决了这一问题。AiA模块嵌入内层注意力机制,细化原始相关图,通过在相关向量上操作寻找共识,放大可靠关联并抑制错误关联。此模块集成到自注意力块中以改进特征聚合,并集成到交叉注意力块中以加强信息传播。此外,AiATrack采用高效特征复用策略避免在线更新时的重复计算,并引入目标-背景嵌入分配机制,显式区分前景目标和背景,同时保留上下文信息。跟踪器保留初始帧提取的长期模板,以及基于IoU预测头的动态更新短期模板。

MixFormer [30]通过紧凑的端到端架构解决了主导跟踪框架的高复杂度和有限适应性问题,这些框架通常依赖多阶段流水线,包含特征提取、信息集成和定位等独立模块。其核心是混合注意力模块(MAM),同时执行自注意力和交叉注意力操作,在提取长程帧内依赖的同时,集成模板与搜索区域间的目标特定信息。MixFormer采用CvT[76]作为主干,结合Transformer和卷积层以高效建模局部和全局表示。为提升效率并处理干扰物,引入非对称注意力方案,选择性排除模板到搜索区域的交叉注意力。如图13所示,整体框架仅由堆叠的MAM主干和轻量级角点定位头组成。推理时,MixFormer通过置信度引导的评分预测模块动态选择高质量在线模板,增强对外观变化和遮挡的鲁棒性。

Image
图10:STARK [22]的视觉架构,作为卷积-注意力完全Transformer跟踪器,强调在线更新和基于Transformer的关系建模。
Image
图11:CSWinTT [27]的视觉架构,采用窗口级注意力机制进行面向目标的关系建模。
Image
图12:判别式AiATrack [28]的视觉架构,包含新型注意力-注意力(AiA)模块,结合短期和长期模板。
Image
图13:MixFormer [30]的端到端视觉架构,包含新型混合注意力模块(MAM)。

纯注意力Transformer跟踪器:现有Transformer跟踪器常依赖CNN主干进行特征提取,限制了Transformer在表示学习中的潜力。本节讨论完全基于Transformer和注意力层的跟踪器,旨在充分利用其时空建模能力以提升性能。此类纯注意力跟踪器可分为单流、双流、基于框、基于令牌、视频Transformer、基于记忆和基于提示的方法,以下逐一解释。

STARK [22]等基于Transformer的跟踪器常依赖CNN主干提取特征,限制了端到端表示学习的潜力。SwinTrack [23](图14)提出了完全基于注意力的跟踪框架,基于Swin Transformer架构,特征表示学习和融合均通过注意力机制完成,生成更紧凑且语义感知的特征表示以定位目标。在简化框架中,模板和搜索区域特征被拼接并输入共享Swin Transformer主干以实现联合建模。为进一步增强鲁棒性而无需显式在线更新,SwinTrack引入运动令牌,在局部时序窗口内捕捉目标的历史轨迹。推理时,该令牌被添加到解码器的注意力机制中,以提升时序感知能力,便于在运动中定位目标。轻量级解码器用于视点-运动融合和双分支预测头。值得注意的是,SwinTrack避免了多尺度特征或基于查询的解码器等复杂设计,实现了简洁、高效且高性能的架构。

SimTrack [25](图14)替代了依赖独立特征提取和交互阶段的复杂架构,提出了一种简化的单流Transformer架构,在统一的主干中完成联合特征学习和交互,提升模型灵活性和效率。通过序列化和拼接示例与搜索图像,再输入主干网络,实现了各层间的双向注意力,支持更全面的多层次交互。为避免补丁下采样导致的信息丢失,SimTrack提出中心窗口策略,通过采样多样化、目标聚焦的补丁来强调示例的中心区域,显著提升跟踪精度同时保持计算效率。该架构去除了专用模块,降低了训练复杂度,并具备良好的任务泛化能力。

OSTrack [26](图14)针对两阶段跟踪器(独立提取模板和搜索区域特征后融合)中目标感知弱、目标-背景区分能力有限的问题,提出了一种单流、单阶段的Transformer框架,通过最早阶段实现特征提取和关系建模的双向信息流。通过直接拼接输入,模型在自注意力中实现了模板与搜索区域的双向信息交互,无需单独的交叉注意力模块。此外,在编码器特定层中集成了早期候选消除模块,基于注意力权重导出的相似度得分识别并丢弃背景令牌,降低计算成本并抑制干扰物。恢复机制重新排列剩余令牌并填充丢弃令牌,保留空间对齐以支持边界框预测。

大多数现代跟踪器依赖独立模块完成特征提取和相关性计算,这常导致架构复杂且特征判别力有限,尤其在干扰物存在时。Wang等人[29]提出的单分支Transformer(SBT)通过新型目标依赖特征网络解决了这一问题,该网络在特征提取阶段通过分层自注意力和交叉注意力块深度嵌入相关性。通过单流Transformer主干统一处理模板和搜索图像,SBT实现了两者的深度交互,生成动态且实例特定的特征表示,有效增强目标连贯性并抑制干扰物。SBT的核心是提取-相关(EoC)块,交替执行自注意力和交叉注意力操作。自注意力模块提升帧内特征,交叉注意力模块逐步对齐帧间特征,过滤无关区域并细化表示以实现稳健匹配。此联合处理机制使SBT能区分目标与干扰物,同时保持时序和空间一致性。在预测阶段,搜索图像的完全融合特征被输入分类和回归头,直接生成目标定位和尺寸嵌入,无需显式相关步骤。SBT架构如图15所示。

Image
图14:SwinTrack [23]、SimTrack [25]和OSTrack [26]等早期纯注意力完全Transformer跟踪器的视觉概览,强调完全基于Transformer的特征提取和关系建模。该图还突出了运动信息、中心目标令牌和消除模块等附加组件,以实现更准确高效的跟踪。
Image
OSTrack
Image
图15:单分支Transformer(SBT)的架构[29],通过提取-相关(EoC)块实现深度特征交互。

大多数基于掩码自编码器(MAE)的ViT跟踪器(如[25, 26])严重依赖静态图像的空间线索,限制了捕捉视频跟踪所需的时序对应关系的能力。DropMAE [31](图16)通过自适应空间注意力丢弃(ASAD)提出了新型自监督视频预训练策略。ASAD在掩码补丁重建过程中,通过选择性丢弃帧内令牌交互的空间注意力权重,迫使模型更依赖帧间线索,增强编码器的时序对齐表示能力,且无需修改Transformer主干架构。DropMAE处理视频帧对时,引入帧身份嵌入以区分时序相邻帧,并兼容现有ViT跟踪器。作者强调,在包含多样运动模式的视频上预训练,比场景多样性更有利于时序匹配任务。另一例是MAT [33],使用掩码外观迁移框架,联合编码模板和搜索区域,重建模板在搜索图像中的外观,此非平凡重建目标使模型学习到更具判别性的目标感知特征,提升了跟踪器的特征表示能力。

尽管纯Transformer跟踪器具备强大的表示和交互能力,但在前景与背景视觉相似时,仍可能导致特征聚合不准确。F-BDMTrack(Yang等人[32],图17)通过引入前景-背景分布建模Transformer解决了这一问题,其包含两个新型组件:前景-背景代理学习(FBAL)模块和分布感知注意力(DA2)模块。FBAL模块通过伪边界框生成技术,从模板和搜索区域中学习动态的前景-背景代理,以建模目标与背景的可分离性。DA2模块通过比较前景与背景表示的分布级差异,改进注意力计算,增强目标特定特征的聚合能力。整体框架无需额外监督或辅助模块,提升了复杂场景下的判别力和上下文感知能力。

为更好地利用跟踪中的时序一致性,ARTrack [34]将视觉跟踪重构为坐标序列解释问题,替代传统的逐帧模板匹配。其提出了新颖的简单自回归框架,直接跨帧建模目标轨迹。受语言建模启发,该模型将边界框坐标离散化为令牌序列,并利用基于Transformer的编码器-解码器架构进行建模。ARTrack还基于时空提示(包括过去轨迹令牌和当前帧特征)进行预测,允许传播运动动力学以实现一致定位。此序列级建模通过结构化损失函数统一了训练和推理,消除了手工设计的定位头或复杂后处理模块的需求。ARTrack的设计实现了连贯的运动建模和稳定的定位,是传统逐帧方法的有效替代方案。

大多数通用跟踪器将任务分解为分类和回归两个子任务,分别由独立网络和损失函数处理,增加了架构复杂度和训练开销。SeqTrack [36](图18)通过引入序列到序列的学习框架解决了这一挑战,将目标跟踪建模为自回归序列生成任务。其将边界框坐标离散化为令牌序列,并通过普通编码器-解码器Transformer学习生成这些令牌。编码器联合提取模板和搜索图像的特征,解码器自回归预测边界框令牌。此设计通过简单的交叉熵损失进行端到端训练,无需复杂监督。SeqTrack还通过置信度驱动的令牌似然机制实现在线模板更新,并在推理时应用窗口惩罚以增强定位稳定性。

Cui等人[35]通过引入MixFormerV2提升了Transformer跟踪器的部署效率。如图19所示,这是首个完全基于Transformer的跟踪框架,去除了密集卷积头和复杂评分预测模块。其采用一组可学习的预测令牌,通过预测令牌参与的混合注意力主干与模板和搜索令牌集成。此统一架构通过轻量级MLP头直接回归边界框坐标和置信度分数,显著降低了计算开销。为进一步提升效率并实现实时性能,MixFormerV2采用基于蒸馏的模型压缩策略,包括密集到稀疏的蒸馏(转移密集角点头模型的知识)和深度到浅层的蒸馏(逐步剪枝主干层)。最终,MixFormerV2在跟踪精度和速度之间实现了良好平衡。

GRM [37]通过引入广义关系建模策略提升了单流和双流跟踪器的模型判别力,该策略自适应控制模板和搜索特征间的令牌级交互。如图20所示,模型将令牌分为三类:模板令牌、交互式搜索令牌和孤立式搜索令牌。轻量级令牌划分模块在目标感知表示引导下,通过Gumbel-Softmax技巧动态分配搜索令牌到这三类,此自适应策略使模型仅在有益处执行交叉关系建模,避免背景杂乱的干扰,并统一了双流和单流管道的优势。为提升计算效率,采用注意力掩模策略将多次注意力操作合并为单次可并行化步骤。

单流和双流Transformer跟踪器分别面临背景干扰和动态外观变化适应性有限的挑战。ROMTrack [38](图21)通过新型三流架构整合了两者优势,包含编码稳定清洁目标特征的固有模板(通过自注意力)、实现动态融合的混合模板,以及从混合模板中提取并注入注意力机制的变体令牌,以捕捉帧间短期外观变化,无需显式在线更新。ROMTrack还采用轻量级全卷积中心定位头,相比角点回归头降低了复杂度。此统一设计使ROMTrack能更有效处理外观变化和背景干扰。

为有效建模视频序列的时空信息,VideoTrack [39]提出了视频级Transformer跟踪框架,通过分层三联块架构执行序列级目标匹配。此设计同时关注初始模板、一组中间帧和当前搜索帧,实现丰富的时序上下文聚合,无需手工设计的在线更新或基于记忆的设计。关键创新是分离式双模板机制,将首帧模板的静态外观线索与中间帧捕捉的动态外观变化分离,减少特征冗余并增强时序匹配的一致性。此外,为兼容普通ViT主干,VideoTrack采用改进的注意力模式和分离式嵌入策略,并采用轻量级角点预测头实现精确定位。最终模型通过前向传播实现高效时序建模,无需复杂时序线索或运动先验。架构如图22所示。

Image
图22:VideoTrack [39]的视觉概览,引入视频级Transformer实现丰富的时序上下文聚合。

AQA-Track [40](图23)通过丰富的时空建模提升了跟踪器在复杂外观变化下的精度。其不依赖传统手工更新规则或记忆网络,而是引入自适应Transformer跟踪器,通过自回归目标查询学习时空信息。时序解码器以滑动窗口方式递归细化查询,允许跟踪器捕捉瞬时外观变化同时保持时序一致性。自回归查询通过时序注意力机制交互并积累时空知识,使模型能直接跨帧学习运动趋势和外观动态。为引导定位具备时序感知的特征,模型集成时空融合模块(STM),根据时序相关性突出空间区域。AQA-Track采用轻量级分层视觉Transformer(HiViT)[77]作为主干,实现跨尺度高效表示学习,并采用中心定位头直接预测边界框。此架构在适应性、精度和效率之间实现了良好平衡。

ODTrack [41](图24)针对视觉跟踪中稀疏时序建模的局限,提出了在线密集上下文关联的视频级跟踪框架,通过迭代令牌传播实现。其将跟踪重构为序列级任务,将目标外观和定位线索压缩为紧凑的时序令牌,作为动态提示在帧间传播,实现跨任意长视频片段的时空轨迹建模。关键组件是时序令牌传播注意力机制,支持高效在线推理,无需专用优化程序或复杂更新模块。此外,为适应长期运动变化,ODTrack采用视频序列采样策略,提取稀疏但信息丰富的帧集合。架构如图24所示。

传统通用跟踪方法常依赖特定模态的定制架构,存在参数冗余和性能局限。OneTracker [42](图25)通过引入统一高效框架解决了这一问题,支持RGB和多模态(RGB+X)跟踪。其核心是基础跟踪器,一个在大规模RGB跟踪数据集上预训练的Transformer模型,以发展通用时序匹配能力。为扩展到其他模态,OneTracker集成提示跟踪器模块,将额外输入(如深度、热成像、分割掩模或语言)视为任务提示。此设计通过交叉模态跟踪提示器(CMT-Prompter)和跟踪任务感知(TTP)Transformer层实现参数高效的微调,仅更新轻量级适配器而保持基础模型冻结。此方案支持基于提示的多模态融合和任务特定适应性,无需修改核心结构,使OneTracker成为多输入模态下有效且可扩展的解决方案。

大多数Transformer跟踪器在整合历史帧特征时,会积累冗余或无关信息,尤其在长期跟踪中外观变化显著时。Li等人[50]通过引入RFGM(从全局表示记忆中读取相关特征)解决了这一问题,其采用全局记忆的跟踪范式,动态检索每帧最相关的特征。RFGM的核心是全局表示(GR)记忆,存储历史模板的特征令牌,以及新型相关注意力机制,根据与当前搜索帧的相似度自适应排序和过滤这些令牌。不同于传统方法对所有令牌均匀应用交叉注意力,此方法学习根据与当前搜索帧的相关性自适应排序和过滤记忆令牌,保留关键目标特征同时丢弃干扰物。此外,采用令牌过滤模块在令牌级选择性更新GR记忆,确保记忆的紧凑性和相关性。为保持计算效率,相关注意力仅在特定Transformer层应用。此设计提升了长期跟踪的鲁棒性,同时避免了每阶段全记忆注意力的高成本。

FCAT [43](图27)专注于处理多尺度变化和局部交互,以提升Transformer跟踪器的精度。其设计了全注意力跟踪框架,包含细粒度-粗粒度级联注意力(FCA)和交叉级联MLP(CC-MLP)两个关键模块。FCA模块通过在注意力操作前应用多尺度卷积,同时学习细粒度和粗粒度特征表示,实现稳健的多尺度跟踪和遮挡处理。CC-MLP通过深度卷积嵌入到前馈层,增强局部令牌交互的建模能力。两者结合形成编码器-解码器Transformer,统一模板和搜索区域,随后通过双分支预测头完成分类和边界框回归。FCAT在保持Transformer框架灵活性的同时,实现了强空间敏感性和高精度。

Image
图25:OneTracker [42]的视觉概览,通过基于提示的建模提升跨模态泛化能力。
Image
图26:RFGM [50]的视觉概览,强调其长期跟踪的记忆适应技术。
Image
图27:FCAT [43]的视觉概览,由细粒度-粗粒度级联注意力(FCA)和交叉级联MLP(CC-MLP)组成。

为建立更具判别性的跟踪器,PiVOT [44](图28)提出了可提示的跟踪框架,通过可学习的视觉提示将CLIP[78]基础模型的强视觉语义先验集成到视觉跟踪中。其架构包含提示生成网络(PGN),生成突出潜在目标区域的评分图,以及关系建模(RM)模块,融合这些提示与帧级特征以指导目标定位。推理时,PiVOT采用测试时提示细化(TPR)策略,利用CLIP的零样本视觉能力,根据与参考模板的相似度细化候选目标区域。此机制使跟踪器能动态抑制干扰物并聚焦正确目标,即使在严重遮挡、外观变化或语义模糊时。不同于先前微调大型Transformer主干的方法,PiVOT冻结ViT-L主干,采用轻量级适配器模块实现高效训练和推理,显著降低训练复杂度同时保持泛化能力。

Image
图28:PiVOT [44]的视觉概览,通过可学习的视觉提示集成CLIP的语义先验。

4. 实验对比

在本节中,基于广泛认可的基准数据集和评估协议开展实验对比,旨在全面且客观地了解所综述方法的性能特征。目的是通过系统地分析标准数据集和性能指标的结果,突出每种跟踪范式在现实场景中的实际优势和局限性。这为准确评估精度、鲁棒性和计算效率做好了准备。以下子章节详细介绍了所使用的基准数据集、采用的评估指标以及近期研究报告的性能结果。

4.1. 跟踪数据集

通用目标跟踪(GOT)数据集旨在在多样且真实的条件下评估算法。下文根据这些数据集的时间范围(短期跟踪与长期跟踪)对其进行分类,并强调它们的独特属性、挑战以及对推进跟踪研究的贡献。

4.1.1. 短期跟踪数据集

短期跟踪基准数据集侧重于对目标保持可见或仅经历短暂遮挡的序列进行连续跟踪。早期的基准数据集,如OTB2013 [80] 及其后续版本OTB2015 [81] ,为视觉目标跟踪(VOT)的公平比较奠定了基础。OTB2013引入了50个视频序列,这些序列标注了光照变化和遮挡等属性,而OTB2015则将其扩展到100个序列,解决了初始条件偏差问题,并增加了快速运动等挑战。这些数据集成为评估鲁棒性的基石,但规模有限,促使创建了更多样化的基准数据集。

Temple - Color 128(TC128)数据集 [82] 应运而生,旨在解决跟踪中的颜色敏感性问题,提供了129个序列,其中78个与OTB不同,用于研究跟踪器在颜色变化和宽高比变化下的性能。与此同时,阿姆斯特丹普通视频库(ALOV) [83] 收集了314个来自YouTube的视频,分为13个难度级别,强调了视角变化等现实挑战。然而,ALOV对每个序列仅进行单一属性标注,限制了其在研究重叠挑战方面的实用性。

视觉目标跟踪(VOT)挑战赛通过引入每帧可旋转的边界框和TraX协议,革新了评估协议,实现了故障自动检测和跟踪器重新初始化。VOT的年度迭代完善了这些协议,但其规模较小(60 - 360个序列),限制了其在训练深度模型中的应用。这一差距由TrackingNet [84] 填补,这是一个大规模数据集,包含500个YouTube视频和超过1400万个边界框,支持对数据需求大的深度跟踪器进行端到端训练。

对于遮挡分析,新加坡国立大学人物与刚体(NUS - PRO)数据集 [85] 提供了365个序列,并标注了帧级遮挡标签(无/部分/完全遮挡),对行人跟踪研究具有重要价值。高速(NfS)数据集 [86] 引入了高帧率(240 FPS)视频,以探索在快速运动和运动模糊情况下的实时跟踪,而GOT - 10k [74] 则开创了先河,包含10000多个视频,涵盖563个目标类别和标签,用于评估跟踪器对目标暂时消失的鲁棒性。此外,TracKlinic [87] 针对每个序列隔离了特定挑战(如旋转遮挡),为目标性能分析提供了工具包。
大多数短期跟踪数据集优先考虑常见挑战(如遮挡、尺度变化),但缺乏对复合属性(如快速运动期间的遮挡)的标注。此外,很少有数据集包含分割掩码,限制了对精确目标定位的研究。

4.1.2. 长期跟踪基准数据集

长期跟踪要求跟踪器对目标频繁消失和重现的情况具有鲁棒性,以模拟现实世界中的监控或野生动物监测场景。OxUvA数据集 [88] 源自14小时的YouTube - BoundingBoxes视频,率先引入目标缺失标签,用于评估跟踪器的重新检测能力。然而,其稀疏的标注限制了精细分析。TLP数据集 [89] 采用高分辨率、长时间的视频,改善了时间一致性研究,但缺乏目标频繁消失的情况。

LTB - 35 [90] 解决了这一不足,该数据集平均每个序列有12次目标消失情况,着重考验跟踪器的恢复能力。大规模单目标跟踪(LaSOT)基准数据集 [91] 设定了新标准,包含1400个序列(230万帧),目标类别取自ImageNet且分布均衡。LaSOT的密集标注和类别均衡减少了评估偏差,尽管其侧重于单目标场景,忽略了多目标挑战。长期跟踪数据集往往忽视时间一致性(例如,数小时内目标的外观逐渐变化),且很少包含多目标场景,这限制了其在人群监控等现实应用中的实用性。(结构化对比见表7)

Table 7: Overview of widely used visual tracking datasets. The table summarizes dataset scale, diversity, and charac- teristics relevant for training and evaluation.
Dataset# SeqsTotal FramesAvg. LengthObject ClassesFrame ResolutionAttr. CountTrack Type
OTB-2015[8110059,0005981611Short
VOT2015 [92]6021,4553572011Short
VOT2016 6[93]6021,455357205Short
VOT2018 8[946021,356356245Short
TLP [89]50676.00013.000171280×7206Long
UAV123[95]123113,000915612Short
ALOV300++[83]3158,93648314Short
TC-128[82]12955,0004312711Short
OXUVa [88]3661.55M4,200226Long
LTB35 [90]35146,0004,000191280×720 ~ 290×21710Long
GOT-10k[74]10,0001.5M1495636Short
LaSOT [91]1,4003.52M2,506701280×72014Long
TrackingNet [84]30.00014M4712715Short
NUS-PRO [85]365109,00037081280×72012Short
4.2. 评估指标

在文献中,为对不同跟踪方法的性能进行一致且客观的评估,广泛采用了多种标准评估指标。这些指标聚焦于跟踪性能的关键方面,如目标定位精度、对跟踪失败的鲁棒性以及对各种条件的适应性。基于精度的指标对于评估空间精度至关重要,它们量化预测的目标中心落在真实目标中心预定阈值范围内的帧数比例,使得空间精度对图像分辨率和目标尺度敏感。为克服这一局限性,归一化精度根据目标大小调整阈值,以实现尺度不变性评估。此外,中心位置误差(CLE)报告预测中心与真实中心之间的平均欧几里得距离,为跟踪精度提供了原始但信息丰富的度量。

基于交并比(IoU)的指标提供了更具区域感知性的评估。例如,成功率表示预测边界框与真实边界框的交并比(IoUIoUIoU)超过给定阈值的帧数百分比。在不同IoUIoUIoU阈值下,计算曲线下面积(AUCAUCAUC),该指标常用于OTBOTBOTBLaSOTLaSOTLaSOT基准数据集,以总结整体跟踪性能。此外,预期平均重叠率(EAOEAOEAO)主要用于VOTVOTVOT挑战赛,它通过估计序列上的预期IoUIoUIoU,同时对跟踪失败进行惩罚,将准确性和鲁棒性综合为单一度量。

这些评估指标通常根据基准数据集和评估目标进行选择。例如,OTBOTBOTB数据集主要报告精度和CLECLECLE,而LaSOTLaSOTLaSOT基准数据集则强调归一化精度和AUCAUCAUC。与此同时,VOTVOTVOT数据集采用EAOEAOEAO进行短期跟踪评估。通过采用这些标准化指标,不同跟踪器之间的对比分析能够保持公平、可解释且可复现。

性能评估

图29展示了基于LaSOTLaSOTLaSOT数据集[91]的AUCAUCAUC和运行速度(帧每秒,FPSFPSFPS,对数尺度)对通用目标跟踪(GOTGOTGOT)跟踪器进行的对比分析,这些跟踪器按其底层外观模型进行分组。绿色表示的基于判别式的跟踪器,由于其在线学习机制的计算成本,表现出中等至较低的精度和相对较慢的速度。深红色表示的基于孪生网络的跟踪器在推理过程中速度明显更快,但由于判别质量较低,AUCAUCAUC值也较低。混合模型(橙色和浅绿色)将变换器模块与孪生网络(STSTST)或判别式(DTDTDT)骨干网络相结合,在精度和速度上均处于中等水平,这表明它们在时间建模和效率之间取得了有效的平衡。左上角区域,即图表中心附近,始终被完全基于变换器的跟踪器(蓝色点)占据,它们以适中的速度实现了最先进的精度。MixFormer2MixFormer2MixFormer2SeqTrackSeqTrackSeqTrackVideoTrackVideoTrackVideoTrack等跟踪器产生了排名最高的AUCAUCAUC性能,展示了丰富的时间上下文建模和全局注意力机制的价值。然而,与轻量级孪生网络模型相比,它们的运行时间往往受到限制。这种分布揭示了一个基本的权衡,即传统方法优先考虑速度或在线适应性,而现代基于变换器的方法则通过利用端到端时空学习,在精度上逐渐占据主导地位。

5. 讨论

本综述回顾了GOTGOTGOT跟踪算法的演变,突出了从传统判别式和基于孪生网络的跟踪器向基于变换器的方法的转变。与计算机视觉中的其他主题一样,这一转变受到了深度卷积神经网络近期成功以及变换器中注意力机制日益普及的影响。虽然每类跟踪器都提供了独特的优势并解决了特定挑战,但没有任何一类跟踪器能在所有跟踪场景中提供唯一的优化解决方案,以有效且鲁棒地应对背景杂波、相似干扰物、运动变化和其他可能遇到的困难。
早期的基于判别式的跟踪器最初依赖于将手工特征与在线相关滤波器相结合,如MOSSEMOSSEMOSSE[1]、KCFKCFKCF[2]和BACFBACFBACF跟踪器。随着深度卷积神经网络的发展,这些特征逐渐被通过离线训练得到的基于卷积神经网络(CNNCNNCNN)的表示所取代,同时保留了在线适应性,如MDNetMDNetMDNet[5]和CFNetCFNetCFNet。这些跟踪器通常依赖于在线跟踪过程中的大量参数调整,从而限制了其效率和鲁棒性。为解决这些局限性,DeepDCFDeepDCFDeepDCF[6]和ATOMATOMATOM等方法专注于学习更适用于跟踪任务的特定判别特征。随后,DiMPDiMPDiMP[9]和PrDiMPPrDiMPPrDiMP[10]引入了元学习策略,通过基于在线优化的在线模型更新来提高适应性。近期进展,如KeepTrackKeepTrackKeepTrack[11]融入了注意力机制以改进时间建模。尽管这些判别式跟踪器

Image
图29:基于$LaSOT$[91]数据集上$AUC$与$FPS$对比的、按外观模型分类的所回顾$GOT$跟踪器性能比较。跟踪器按其外观模型类型(基于判别式、基于孪生网络、基于变换器以及混合变体)进行颜色编码。左上角区域,即图表中心附近,始终被完全基于变换器的跟踪器(蓝色点)占据,这表明它们在适中的速度下具有高精度。

展现出了强大的在线优化和适应性,但它们在计算效率和跨多样数据集的泛化能力方面仍面临挑战。

基于孪生网络的跟踪器通过应用静态模板与搜索帧之间的匹配机制,强调效率和简洁性。它们从基本的全卷积网络[12]发展到基于区域提议网络(RPNRPNRPN)[13]、RCNNRCNNRCNN增强型[19]以及基于动态注意力机制的结构[65]、[18]。尽管取得了有效进展,如自适应模板更新[64]、干扰物处理[20]以及空间/通道注意力[15],但它们在适应遮挡或外观变化方面的能力仍然有限。

随着变换器在计算机视觉中的成功应用,混合基于变换器的跟踪器将变换器模块应用于孪生网络或基于判别式的跟踪器中,以更好地建模时间依赖性和全局上下文,如TrDimpTrDimpTrDimpTrSiamTrSiamTrSiam[46]、TOMPTOMPTOMP[47]以及TaMOsTaMOsTaMOs[48]。这些模型在保留孪生网络或判别式基础架构优势的同时,改进了时间推理和全局上下文建模。然而,它们的性能往往在很大程度上取决于集成质量,并且在某些情况下会继承其基础框架的缺点。

完全基于变换器的跟踪器建立在自注意力和交叉注意力机制的概念之上,标志着跟踪算法的范式转变。这些固有特性赋予了它们强大的时间和全局特征建模能力,从而实现了卓越的精度。完全基于变换器的跟踪器可以结合卷积特征和基于注意力的关系建模,或者可以完全基于注意力层进行联合特征学习和关系建模。

卷积-注意力变换器跟踪器专注于结合卷积的定位优势与自注意力和交叉注意力机制的建模能力。STARKSTARKSTARK[22]引入了最早的有效框架之一,简化了跟踪过程,消除了对象提议,并融入了端到端的基于注意力的空间建模。随后的方法,如CSWinTTCSWinTTCSWinTT[27]和AiATrackAiATrackAiATrack[28],通过设计层次化和精细化的注意力机制,解决了特定挑战,如对象完整性损失和噪声注意力相关性,以增强结构一致性和对干扰物的鲁棒性。MixFormerMixFormerMixFormer[30]将跟踪特征提取和关系建模统一到一个骨干网络中,降低了复杂性,同时提高了适应性和效率。这些跟踪器展示了结合卷积先验与注意力进行准确高效跟踪的优势,但它们在极端外观变化和实时适应性方面仍面临困难。

纯注意力基于变换器的跟踪器通过变换器注意力层统一特征提取和关系建模,实现了更具表现力的时空表示。早期的方法,如SwinTrackSwinTrackSwinTrack[23]、SimTrackSimTrackSimTrack[25]和OSTrackOSTrackOSTrack[26],应用单流骨干网络联合编码模板和搜索特征,以提高效率和目标感知能力。后来的跟踪器,如SBTSBTSBT[29]和GRMGRMGRM[37],通过引入动态关系建模和令牌感知注意力控制来优化交互机制。序列建模是另一种方向,AR−TrackAR-TrackARTrack[34]和SeqTrackSeqTrackSeqTrack[36]将其重新表述为自回归令牌预测问题。此外,掩码建模策略,如DropMAEDropMAEDropMAE[31]和MATMATMAT[33],增强了判别特征学习。其他跟踪器,如OneTrackerOneTrackerOneTracker[42]和PiVOTPiVOTPiVOT[44],专注于基于提示的建模,通过实现跨模态泛化和语义提示来扩展纯变换器架构。AQA−TrackAQA-TrackAQATrack[40]、ODTrackODTrackODTrack[41]和VideoTrackVideoTrackVideoTrack[39]通过序列建模提供了强大的长期时间推理能力。最后,高效的架构,如MixFormer2MixFormer2MixFormer2[35]和FCATFCATFCAT[43],通过可学习的预测令牌和尺度自适应注意力设计来增强其模型。

这些回顾的纯注意力跟踪器通过纯基于变换器的设计展示了架构多样性和功能丰富性。然而,它们的成功往往取决于精心的令牌设计、注意力正则化和专门的预训练策略,这可能限制了它们在未见或资源受限场景中的泛化能力。总之,尽管纯基于变换器的技术在视觉跟踪中处于领先地位,但实现准确性、适应性和效率之间的平衡仍然具有挑战性。从这一分类中得出的见解为指导未来研究提供了坚实基础,以应对这些挑战并推动在现实世界跟踪场景中的实际应用。例如,一些GOTGOTGOT跟踪器融入了分割掩码,以提供更精确的像素级目标定位,而非仅依赖边界框[96-98]。

表8展示了本文回顾的跟踪范式贡献的功能分组。这一分类提供了一个高级分类体系,强调了跟踪器如何处理某些视觉跟踪挑战,如干扰物处理、对外观变化的鲁棒性以及适应性能力。这些问题源于视觉目标跟踪(VOTVOTVOT)的本质瓶颈,包括语义相似对象、遮挡、长期消失、运动和外观变化、状态估计不准确以及现实世界性能低效。

6. 应用

视觉目标跟踪(Visual Object Tracking,VOT)具有广泛的应用,包括自动驾驶、机器人技术、智能视频监控、空中跟踪和医学成像等领域,在这些大型智能系统中,VOT通常发挥着至关重要的作用[55]。以下各节概述了每个领域中具有代表性的研究成果。

表8:基于通用目标跟踪(Generic Object Tracking,GOT)跟踪器对核心跟踪挑战(如干扰物处理、在线自适应、元学习、状态估计和记忆集成)的贡献进行的功能分类。该分类法突出了不同方法如何解决特定的性能目标和操作限制。
功能贡献技术表示跟踪器 3,4,64,20,9,10 5],[8], [19] [46],[46], [37],[40] [25],[26],[31], [33] [64],[15],[18],[65],[21],[19] 13],[9],[10],[47],[48] 5],[20],[19],[11],[22] [29],[30],[50],[42],[41],[39], [34],[36],[32],[31],[26] [15],[18], [65] 23], [34] [34],[39],[41 16],[14],[65] [9],[8],[19],[23] [25],[27],[29],[30],[28],[39] [38], [40]
干扰物处理 孪生网络中的在线自适应 鲁棒性提升 联合关系建模 边界框预测
这些领域。表9总结了特定领域的应用和关键代表性研究成果,为后续小节的详细讨论提供参考。

监控与行人监测:VOT在监控与监测系统中发挥着关键作用,它能够实现对复杂动态环境中人员和行为的自动化观测。在公共安全领域,跟踪算法用于监测拥挤区域、检测异常行为,并为智能监控基础设施提供实时警报支持[99,100]。在行为监测方面,多人跟踪技术被用于分析结构化和半结构化场景中的交互、轨迹和社会线索[101,102]。在人机交互中,面部和手势跟踪技术被应用于实时解读用户输入,实现人与机器之间的自然交互[103]。

空中与无人机跟踪:无人机搭载平台上的视觉跟踪可实现需要实时、远距离和视角不变目标定位的空中监测任务。在无人机监控场景中,机载跟踪器被部署用于自主跟踪人员或车辆,以实现区域保护、安全巡逻和边境监测[104 - 106]。这些系统必须在快速运动、高度变化以及遮挡和尺度变化等环境挑战下运行。在交通监测应用中,空中目标跟踪用于估计车流量、检测事故,并从高空视角支持基础设施分析[107 - 111],为地面传感器提供了可扩展且非侵入性的替代方案。

自动驾驶与车辆跟踪:在自动驾驶系统中,VOT在感知和理解车辆周围动态环境方面发挥着至关重要的作用。在驾驶员辅助应用中,视觉跟踪通过持续定位和跟踪周围的动态目标,为碰撞避免、车道保持和行人检测等功能提供支持[112 - 114]。在车辆跟随系统中,跟踪器估计前方车辆的相对位置和速度,以调节车距并实现自适应巡航控制[115,116]。对于交通场景理解,跟踪方法能够实现多目标的轨迹预测和语义解释,使自动驾驶车辆能够预测行为并做出明智的导航决策[117,118]。

机器人与操作:在机器人系统中,视觉跟踪能够实现对动态和部分可观测环境的感知驱动交互。在视觉伺服中,跟踪用于持续估计目标物体或特征的位姿,以引导机器人运动,实现对物体跟随或工具对齐等任务的精细控制[119 - 122]。对于机器人抓取,视觉跟踪在遮挡或运动情况下提供物体状态估计,便于对可变形或杂乱物品进行稳健的操作和抓取[123]。在服务机器人领域,物体跟踪在交换过程中保持对目标物体的空间感知,支持人与机器人之间直观可靠的手递手操作[124,125]。

医学领域:在医学成像和手术环境中,VOT能够在受限和动态条件下实现精确的实时定位。在工具跟踪中,无标记方法支持多种仪器的检测和轨迹估计,提高微创手术工作流程的效率[126,127]。基于深度学习的跟踪器可处理遮挡、模糊以及不同工具类型的精细分类[127]。在神经外科和颅底手术中,基于立体视觉的解剖结构和工具跟踪无需外部传感器即可增强空间感知[128]。配备头戴式显示器的增强现实系统可在保持无菌区域的同时提供高精度、无标记跟踪[129]。在诊断成像中,对解剖结构的预测跟踪可实现运动稳健的采集,如胎儿磁共振成像(Magnetic Resonance Imaging,MRI)[130]。在生物医学研究中,VOT有助于动物模型的行为分析[131]以及使用目标一致轨迹建模进行显微镜下的细胞级跟踪[132]。

表9:VOT在各关键领域的代表性应用。
领域应用场景代表性研究成果
监控与行人监测公共安全、行为分析、基于人机交互(Human-Computer Interaction,HCI)的手势和面部跟踪[99,100,101,102,103]
空中与无人机跟踪基于无人机的监控、交通流量监测、事故检测[104],[105],[106],[107,108],[109],[110],[111]
自动驾驶与车辆跟踪碰撞避免、行人和车辆跟踪、轨迹预测[112],[113],[114],[115,116],[117],[118]
机器人与操作视觉伺服、遮挡情况下的抓取、人与机器人手递手操作[119],[120],[121,122],[123],[124],[125]
医学领域手术工具跟踪、基于增强现实(Augmented Reality,AR)的导航、胎儿MRI、行为和细胞分析[126],[127],[128],[129,130],[131],[132]
### 7. 总结与展望

在本综述中,我们对基于孪生网络(Siamese-based)、基于判别(discriminative-based)、基于混合Transformer(hybrid transformer-based)和基于全Transformer(fully transformer-based)这四大主要范式的目标跟踪(GOT)技术进行了全面回顾与分类。此外,我们引入了一种统一的分类方法,该方法不仅依据跟踪器的核心范式进行组织,还便于比较它们的架构原理、贡献和局限性,从而更好地把握该领域的快速发展态势。为了提供一致的比较,我们重构了各种方法的标准架构图,从而能够全面直观地了解设计组件及其在不同范式中的演变。

我们的多维度分析从架构方面(外观模型、主干网络、设计亮点)和功能目标(干扰物处理、在线自适应、时序建模)对跟踪器进行了比较。该分析突出了关键创新点、已解决的挑战和潜在局限性。此外,我们还回顾了重要的基准测试,并可视化了所回顾跟踪器在精度和速度方面的性能权衡。

一个关键见解是,基于全Transformer的跟踪器正呈现出日益增长的趋势,这类跟踪器通过在视频帧间实现更丰富的时空建模,克服了孪生网络和判别式方法固有的局限性。该类别在整合动态记忆方面提供了更好的灵活性,包括空间帧间和时序帧内关系建模,以及自适应在线更新。这些特点使得基于全Transformer的跟踪器尤其适用于复杂场景下的长期跟踪。

未来,研究可能会侧重于通过优化时空注意力、融入分割线索以改进定位,以及集成在线自适应或基于记忆的模块以增强鲁棒性,来挖掘Transformer尚未开发的潜力。随着数据集变得更加多样化,应用需求日益提高,我们期望目标跟踪框架朝着统一、端到端的系统发展,这些系统在实际环境中具有准确性、高效性和适应性。

8. 致谢

作者谨对加拿大自然科学与工程研究委员会(加拿大探索拨款项目,项目编号RGPIN-2023-05408)为本研究提供的资金支持表示感谢。

http://www.xdnf.cn/news/17104.html

相关文章:

  • 抽像代数概念理解——陪集(coset)
  • 0.08B参数以小博大:用小模型生成媲美GPT-4o的古典诗词
  • 嵌入式学习之51单片机——串口(UART)
  • Webpack 搭建 Vue3 脚手架详细步骤
  • Unix 命令行shell基础--学习系列003
  • 跳板机实现 SSHFS 挂载
  • Tomcat虚拟主机配置详解和多实例部署
  • C + +
  • 交叉验证:原理、作用与在机器学习流程中的位置
  • SpringBoot3.x入门到精通系列:3.2 整合 RabbitMQ 详解
  • Ubuntu系统VScode实现opencv(c++)图像一维直方图
  • Ubuntu系统VScode实现opencv(c++)图像二维直方图
  • 补:《每日AI-人工智能-编程日报》--2025年7月28日
  • 软件设计 VS 软件需求:了解成功软件开发外包的关键差异
  • git操作命令和golang编译脚本
  • 补:《每日AI-人工智能-编程日报》--2025年7月27日
  • 移动端 WebView 视频无法播放怎么办 媒体控件错误排查与修复指南
  • 高精度实战:YOLOv11交叉口目标行为全透视——轨迹追踪×热力图×滞留分析(附完整代码)
  • Linux-Day01.初识Linux和基础指令
  • 基于FAISS和Ollama的法律智能对话系统开发实录-【大模型应用班-第5课 RAG技术与应用学习笔记】
  • Ubuntu 下编译 SQLCipher 4.8.0
  • CMake进阶: 使用FetchContent方法基于gTest的C++单元测试
  • sqli-labs靶场less29~less35
  • Ethereum:拥抱开源,OpenZeppelin 未来的两大基石 Relayers 与 Monitor
  • 互联网医院整体项目套表整理过程文档全流程分析
  • Linux 文件与目录属性管理总结
  • IPIDEA:全球领先的企业级代理 IP 服务商
  • Go语言 逃 逸 分 析
  • JVM(Java虚拟机)运行时数据区
  • 【测试】⾃动化测试概念篇