论文阅读:HybridTrack: A Hybrid Approach for Robust Multi-Object Tracking
论文地址:2501.01275v2
代码地址:GitHub - leandro-svg/HybridTrack: [RA-L25/ICRA26] HybridTrack: A Hybrid Approach for Robust Multi-Object Tracking
前言
多目标跟踪旨在在帧间检测和关联所有所需的目标。大多数方法通过明确或隐式地利用强大的线索(即空间和外观信息)来完成任务,这些线索表现出强大的实例级别判别能力。然而,当出现目标遮挡和聚类时,由于目标之间的高度重叠,空间和外观信息同时变得模糊不清。在本文中,作者证明MOT中这个长期以来的挑战可以通过引入弱线索来有效地解决,以补偿强线索的不足。作者引入了「速度方向」、「置信状态」和「高度状态」作为潜在的「弱线索」。在性能方面表现优越的同时,作者的方法仍保持了简单、在线和实时(SORT)的特性。
🔍 研究背景
-
传统SORT/DeepSORT等方法的局限:固定的运动模型和线性卡尔曼滤波器在非刚性目标或快速加减速等复杂轨迹下难以适应,鲁棒性差。
-
深度学习方法虽强,但重训练成本高,无法快速迁移到新场景或设备。
-
目标:构建一个兼具高精度、强泛化和轻量实时性的跟踪方法。
🚀 Motivation
HybridTrack 提出了一种 无需训练的混合滤波器 框架,解决:
-
如何提升传统滤波方法的自适应性?
-
是否可以利用神经网络对卡尔曼预测和更新残差进行学习补偿?
答案是将KF与轻量深度网络融合:保留卡尔曼滤波器结构,同时用神经网络替换其静态部分。
作者希望Hybrid-SORT的泛化能力、即插即用和无需训练的特点使其在各种真实世界场景和边缘设备中具有吸引力。作者的贡献可以总结如下:
- 证明了引入弱线索(即置信度状态、高度状态和速度方向)可以显著减轻遮挡和聚类等长期存在的挑战,作为对常用强线索的补偿。
- 引入简单的Tracklet Confidence Modeling(TCM)和Height Modulated IoU(HMIoU)来对置信度状态和高度状态进行建模和利用。通过精细的建模,弱线索可以有效地、高效地缓解由强线索产生的模糊匹配,而附加计算量可忽略不计。
- 这种即插即用和无需训练的设计在不同的场景和追踪器上都具有良好的泛化能力。作者在5个代表性追踪器上实现了作者的设计,实现了一致且显著的改进。最后,作者的方法Hybrid-SORT在DanceTrack、MOT17和MOT20基准测试中取得了优越的性能。
🧭 系统结构概述
关联阶段主要包括3个阶段:
- 第一阶段是高置信度目标的关联
- 第二阶段是低置信度目标的关联(ByteTrack中的BYTE)
- 第三阶段是利用最后一个检测恢复丢失的轨迹(OC-SORT中的OCR)
Overall Pipeline:
-
输入:图像帧 + 检测框(来自YOLO/Faster R-CNN等)。
-
跟踪器主体:融合残差学习模块的Hybrid-KF(Hybrid Kalman Filter)。
-
输出:连续帧目标轨迹ID。
模块组成:
-
Baseline跟踪器:标准SORT结构。
-
残差学习器(Residual Learner):预测运动残差以修正KF预测。
-
增益学习器(Gain Learner):学习动态Kalman增益,自适应调整置信度。
-
匹配机制:使用匈牙利算法进行匹配,同时融合空间(IOU)与运动相似度。
⚙️ 技术细节
作者使用独立的ReID模型来整合外观信息,如图所示。按照BoT-SORT的方法,作者的流程首先检测目标,然后将结果裁剪的补丁送入ReID模型。作者使用指数移动平均(EMA)来建模轨迹的外观信息,并使用余弦距离作为计算轨迹外观特征与检测外观特征相似性的度量。需要注意的是,ReID组件不是作者论文的重点。
1. 启发式匹配器
基于空间的启发式匹配器
空间信息是高FPS基准测试中最广泛使用的强线索。当帧之间的时间间隔很短时,目标的移动也很小,可以视为线性移动。这使得空间信息在短期关联中成为准确的度量标准。先驱性的工作SORT使用卡尔曼滤波器来预测轨迹的空间位置,并基于IoU度量将它们与检测框进行关联。
随后的工作,如CenterTrack、ByteTrack和OC-SORT,都是利用空间信息进行启发式匹配的方法,用来将轨迹与检测框进行匹配。然而,即使是最先进的方法OC-SORT,在遮挡和聚类方面仍然存在困难。
基于外观的启发式匹配器
与空间信息不同,外观信息在整个视频中具有相对稳定的一致性,因此有利于长期关联。DeepSORT在SORT的基础上,引入了一个独立的ReID模型来提取外观特征进行关联。
随后的工作JDE、FairMOT、CSTrack和QDTrack将检测和ReID模型进行了联合训练,并设计了改进的网络架构来提高性能。然而,作者观察到在聚类的目标中,无论是否为外观信息或空间信息,都存在严重的判别性退化,即使为了联合利用这两种信息,设计了精细的网络架构和关联策略。
2.可学习匹配器
基于图的可学习匹配器
基于图的可学习匹配器将关联任务构建为一个边分类任务,其中边标签为1表示轨迹节点和具有相同ID的检测节点,反之亦然。MOTSolv和GMTracker基于图神经网络(GNN)进行数据关联,并使得关联步骤可微分。
最近,SUSHI利用图模型将短轨迹层级连接成长轨迹,在离线方式下进行。然而,基于图的匹配器的主要限制是训练和推断流程通常很复杂甚至是离线的,这限制了它们在对实时性要求严格的在线跟踪场景(如自动驾驶)中的实际应用。
基于Transformer的可学习匹配器
自从Transformer在视觉任务中变得流行,许多工作都提出利用其强大的注意力机制来对关联任务进行建模。TrackFormer和MOTR同时利用轨迹查询和标准检测查询来执行轨迹传播和初始化。
最近,MOTRv2在MOTR的基础上引入了一个独立的检测器,试图解决检测和关联之间的冲突。然而,基于Transformer的匹配器涉及大量的自注意/交叉注意操作,阻止算法实现实时能力。
3.训练方式
-
仅用Ground Truth轨迹离线训练MLP模块。
-
无需真实视频数据或检测器联合训练。
-
网络小而快,可部署于边缘端。
4. 时间性能
-
在 KITTI、MOT17 数据集上达到 100+ FPS。
-
相比DeepSORT等方法速度提升 >3倍,且精度提升明显。
📊 性能指标(参考论文与开源数据)
方法 | HOTA ↑ | MOTA ↑ | IDF1 ↑ | FPS ↑ |
---|---|---|---|---|
SORT | 53.7 | 70.1 | 62.3 | 220 |
DeepSORT | 59.3 | 74.2 | 66.1 | 25 |
HybridTrack | 66.8 | 77.9 | 74.5 | 112 |
🧾 总结
-
HybridTrack 优点:
-
不依赖场景训练,具备零样本迁移能力;
-
可用于目标加速、遮挡等复杂场景;
-
易部署,适配自动驾驶、边缘视觉系统;
-
-
技术创新点:
-
首次将残差和增益学习机制引入Kalman滤波框架;
-
实现了轻量神经模块与传统跟踪器的高效耦合。
-