当前位置：首页 > news >正文

Test-Time Zero-Shot Temporal Action Localization

news 2025/5/30 15:16:42

在这里插入图片描述

标题：测试时零样本时序动作定位（Test-Time Zero-Shot Temporal Action Localization）

原文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Liberatori_Test-Time_Zero-Shot_Temporal_Action_Localization_CVPR_2024_paper.pdf

源码链接：GitHub项目地址
发表：CVPR-2024

摘要

零样本时序动作定位（Zero-Shot Temporal Action Localization, ZS-TAL）旨在识别并定位训练阶段未见过的未裁剪视频中的动作类别。现有的ZS-TAL方法依赖于大量带注释训练数据进行模型微调。尽管这类方法有效，但训练驱动的ZS-TAL方法假设必须存在用于监督学习的标注数据，而这在某些应用中并不现实。此外，训练过程自然会使模型产生领域偏置，进而降低其在任意视频上的泛化能力。

鉴于上述问题，我们从一个全新的角度重新审视ZS-TAL任务，提出了无需训练数据的新型方法：测试时自适应时序动作定位（Test-Time adaptation for Temporal Action Localization, T3AL）。简而言之，T3AL对预训练的视觉语言模型（Vision and Language Model, VLM）进行测试时自适应。T3AL分为三个阶段：

通过汇聚整段视频的信息，生成视频层面的伪标签；
采用一种自监督学习启发的方法执行动作定位；
利用先进的图文生成模型提取逐帧文本描述，进一步精炼动作候选区域。

我们在THUMOS14和ActivityNet-v1.3两个数据集上验证了T3AL的有效性。实验结果表明，T3AL在无需训练的前提下显著优于基于现有VLM的零样本基线方法，进一步证实了测试时自适应在ZS-TAL中的潜力。

1. 引言

零样本时序动作定位（Zero-Shot Temporal Action Localization, ZS-TAL）旨在定位并识别视频序列中的任意动作类别，允许模型识别在训练阶段未见的类别。大规模视觉语言模型（VLMs）【1, 12, 22, 28, 31】由于在大规模图文对数据上预训练，表现出卓越的泛化能力，超越了传统的图像分类方法【4, 13, 32】。
在这里插入图片描述

图 1. 任务设置说明。以往处理 ZS-TAL（零样本时间动作定位）的方法如图 (a) 所示，依赖于有标签的数据进行训练，然后在相同领域的数据上进行测试。
由于这些方法缺乏跨领域泛化能力，本文提出如图 (b) 所示的新方案：在没有任何先验监督训练的前提下，直接在一串无标签视频上于测试时更新模型参数。

然而，当VLM应用于视频领域时，通常需要对其进行微调以应对图像与视频之间的结构性领域差异【11, 26, 28】。现有利用VLM进行ZS-TAL的方法也面临这一限制：它们需要训练数据来学习视频领域特征，并在测试时定位未见动作【9, 20, 30】（见图1(a)）。

尽管模型微调的目标是学习有效的视频表示，从而实现动作定位，但这也意味着必须获得大量标注数据。而在某些场景中，这样的数据可能无法获取。此外，微调模型还可能导致泛化能力降低，特别是在ZS-TAL任务中这一问题尤为严重。我们在第3节中的初步研究发现，在跨数据集设置下，现有最先进的ZS-TAL方法性能显著下降。

这一现象引发了我们对现有ZS-TAL方法适应性与鲁棒性的担忧，尤其是在实际应用中训练数据由于隐私问题无法使用，或者数据分布随时间发生显著变化的场景。

因此，我们提出一种新的ZS-TAL问题设定：假设完全无法访问训练数据。尽管即使有强大的VLM作为基础，在没有训练的情况下在视频中进行动作识别与定位仍极具挑战性（视频比图像复杂，存在背景干扰以及时序动态建模的困难【19】），但我们认为可以充分利用测试时可用的视频作为信息源来辅助动作定位。

受近期测试时自适应（Test-Time Adaptation, TTA）方法【24, 25】启发，我们提出了T3AL。T3AL在无训练数据的情况下直接适应，利用预训练VLM实现ZS-TAL（见图1(b)）。T3AL包含三个关键步骤：

首先，从每帧提取特征并聚合，计算出视频层级的伪标签；
然后，通过一种自监督策略对动作定位结果进行优化；
最后，利用先进图文生成模型（如CoCa）生成逐帧文本描述，以进行区域级的文本引导抑制。

我们在两个公开数据集THUMOS14【7】和ActivityNet-v1.3【6】上进行评估，T3AL相较于直接使用VLM进行动作定位，平均mAP提升分别达到+6.3%和+13.5%。进一步的oracle实验也表明该方向仍有提升空间，验证了测试时ZS-TAL作为实际可行路径的有效性。

我们的贡献总结如下：

我们首次研究了ZS-TAL在无训练数据的现实场景下的表现，揭示了现有方法在该设定下的显著性能下降；
我们提出了T3AL方法，该方法通过对预训练VLM进行测试时自适应并引入文本引导机制，实现无训练ZS-TAL；
我们实证表明，在无标签数据流上进行自适应可以有效缓解当前方法的泛化问题。

2. 相关工作

本研究与**零样本时序动作定位（Zero-Shot Temporal Action Localization, ZS-TAL）与测试时自适应（Test-Time Adaptation, TTA）**两个研究领域密切相关，下面我们将简要回顾这两个方向的相关文献。

零样本时序动作定位（ZS-TAL）

时序动作定位（Temporal Action Localization, TAL）旨在同时完成动作的定位与识别任务。现有工作可分为两类：两阶段方法【3, 9, 27, 34】与单阶段方法【2, 15, 20, 30】。

两阶段方法首先生成类别无关的动作候选区域（region proposals），随后对每个候选区域进行分类。
单阶段方法则同时进行动作定位与分类。

传统的这两类方法均依赖封闭集（closed-set）设定，即训练与测试数据中包含相同的动作类别。

EffPrompt【9】最近首次引入了ZS-TAL设置，打破了上述假设，在训练与测试阶段使用不同的类别集合。为应对这一设定，EffPrompt采用两阶段架构，先使用现成的动作检测器【14】生成候选区域，再利用CLIP【22】对其分类。

与此不同，STALE【20】提出使用基于CLIP的无proposal模型，使用两条并行的流（stream）分别进行定位与分类：

定位分支学习类别无关的区域掩码；
分类分支将掩码特征与文本类别嵌入对齐，以获得最终分类结果。

近期的UnLoc【30】进一步提出：通过CLIP提取视频与文本对的联合特征，并引入融合模块处理这些特征。融合模块基于特征金字塔结构（feature pyramid），建立层级连接并预测每帧的相关性得分以及起始/结束时间的偏移量。

尽管上述方法取得了优异性能，但都依赖训练集进行模型学习，因此存在诸多局限性：

泛化到不同分布的数据困难；
对计算资源要求较高；
严重依赖带标注的数据。

本文旨在解决更具实际意义但更具挑战性的ZS-TAL场景，即完全无法访问训练数据的情况。我们的方法属于单阶段范式，并以端到端方式应对ZS-TAL任务的核心挑战。

测试时自适应（Test-Time Adaptation, TTA）

测试时自适应旨在使一个在训练集上预训练的模型，能够适应未知的测试分布，该测试分布以无标签数据流的形式出现【24, 25】。

在图像分类任务中，已有多个TTA方法被提出。例如：

TENT【25】：通过最小化批次预测的熵，调整模型；
MEMO【33】：通过在增强样本上的边缘分布熵最小化进行自适应，从而避免依赖多个样本。

近年来，也有部分工作将这些思想应用于大规模VLM模型：

TPT【18】：通过熵最小化学习文本上下文向量，对CLIP进行测试时微调；
SwapPrompt【17】：引入在线prompt与其历史均值的交换机制以提升自适应稳定性；
PromptAlign【23】：通过对单张测试图像生成的多个增强视图对齐其统计分布与训练分布，实现多模态prompt的测试时调整。

尽管这些方法在图像领域取得成功，视频领域仍然鲜有探索。较为突出的方法有：

ViTTA【16】：提出视频动作识别的测试时自适应方法，在线对测试分布与训练分布统计量进行对齐；
RNA++【21】：提出用于第一视角动作识别的TTA方法，用于解决源领域数据不可访问时的领域偏移问题。

然而，与这些方法不同，我们的工作将TTA应用于从未被设计用于时序动作定位的VLM模型。这就要求模型不仅要适应测试分布，还必须推理出一个此前从未见过的任务本身（TAL）。

3. 跨数据集泛化能力分析

我们提出了一项初步实验，以进一步支持本工作的研究动机。该实验的目标是测试现有最先进ZS-TAL方法在跨数据集设定中的动作定位性能，即评估其泛化能力。

具体而言，我们选取了两个最先进方法：EffPrompt【9】和 STALE【20】。对于 EffPrompt，我们采用其现成的动作检测器【14】以及在 HMDB51【10】上训练的动作识别模型；对于 STALE，我们使用其在 ActivityNet-v1.3 上训练的 ZS-TAL 模型。在这两种情况下，我们将 THUMOS14 数据集作为测试集。

值得注意的是，我们所采用的跨域测试协议是将这些在更复杂、多样化数据集（如 ActivityNet-v1.3：200 类，HMDB51：51 类）上训练的模型，在一个相对简单的数据集（THUMOS14：20 类）上进行测试。为对比参考，我们也报告了其在同一数据集（即训练与测试均在 THUMOS14）上的**同域设定（in-domain）**表现。

我们的初步研究结果表明：

尽管 EffPrompt 和 STALE 在训练阶段已经引入了提升零样本能力的机制（例如利用 VLM 的先验知识），
然而当它们在测试时面对与训练数据不同分布的视频时，性能却显著下降。

图2：跨数据集泛化性能对比。我们在 IoU 阈值为 [0.3:0.1:0.7] 范围内，报告 EffPrompt 与 STALE 方法在 THUMOS14 上的平均 mAP 表现。比较其在同域（训练和测试均为 THUMOS14）与跨域（训练为 HMDB51 或 ActivityNet，测试为 THUMOS14）设定下的性能差异。包含 75:25 和 50:50 的已见/未见类别划分。
图2展示了两种方法在同域与跨域设定下的性能对比，评价指标为 平均mAP，在不同IoU阈值下（[0.3:0.1:0.7]）计算。性能在跨域下平均下降超过15%，说明当前模型在超出训练分布之外的数据上表现不佳。

这一现象我们归因于如下原因：

对VLM模型权重的扰动（即训练过程）可能会提升其在训练分布内的预测能力，但却损害了其对新分布的泛化能力。

受这一实验结果启发，我们提出一种方法，无需任何训练数据即可在不同数据集上获得鲁棒性能。

4. T3AL：测试时自适应的时序动作定位

在本节中，我们首先对问题进行形式化定义，然后详细介绍 T3AL 方法的三个主要步骤：视频级伪标签生成、自监督预测优化以及文本引导的区域抑制。

4.1 问题定义

一个 ZS-TAL 算法的目标是在未裁剪视频中识别并分类动作。对于每个被检测到的时间段，模型需预测其类别，并指出该动作的起始与结束时间。

虽然可用的类别集合是已知的，但这些类别与训练时模型见过的类别是不相交的。现有研究中关于 ZS-TAL 的方法【9, 20, 30】均依赖一个带标签的训练集 $\mathcal{D}_{\text{train}}$ 和一个测试集 $\mathcal{D}_{\text{test}}$ ，并保证两者的动作类别集合互不重叠。然而如第3节所示，当前最先进方法严重依赖于训练数据 $\mathcal{D}_{\text{train}}$ ，导致当训练与测试分布不同（out-of-domain）时，模型表现会显著下降。

因此，本文主张研究一个更实际也更具挑战性的ZS-TAL设定：在训练阶段完全不可访问训练数据的情形。

给定一个视频 $V$ ，我们的目标是在不访问训练集 $\mathcal{D}_{\text{train}}$ 的前提下，从类别集合 $\mathcal{C}$ 中识别并定位动作。模型需输出 $M$ 个动作候选，形式为：

${(y_i, t_i)\}_{i=1}^M$

其中， $y_i \in \mathcal{C}$ 表示动作类别， $t_i \in \mathbb{R}^2$ 表示该动作的起始和结束时间偏移。
在这里插入图片描述

图3. 所提出方法的概览。T3AL 仅在测试时对未标注数据进行学习，从而解决 ZS-TAL 任务。
我们首先将平均视觉帧与文本类别名称进行比较，以识别视频伪标签。接着，通过自监督方式对视觉帧与视频伪标签之间的匹配得分进行优化。最后，我们利用一个图文生成模型（即 CoCa [31]）的解码器生成描述，并执行基于文本引导的区域抑制操作。整个过程中，仅对视觉与语言投影头进行微调，编码器保持冻结状态。当获得最终预测后，优化得到的参数 $\theta_{PV}$ 和 $\theta_{PL}$ 会被重置为预训练模型中的参数。

T3AL 构建于一个预训练的视觉语言模型 $\mathcal{M}$ 之上，该模型由视觉编码器 $\mathcal{E}_V$ 与语言编码器 $\mathcal{E}_L$ 组成，如图3所示。与以往方法不同，T3AL 在推理阶段直接对单个测试视频进行自适应。

主要流程如下：

首先，利用视觉编码器 $\mathcal{E}_V$ 提取所有帧的表示，并对其进行平均，得到视频级表示；
然后，计算视频与文本类别表示的相似度，获取视频的伪标签；
接着，通过自监督机制对帧级分数进行优化；
最后，利用文本生成模型对候选区域进行描述，并执行文本引导的区域抑制操作。

T3AL 在每个视频样本上独立执行，且在完成预测后会将模型参数重置为预训练状态，确保下一轮推理不受干扰。

4.2 视频级伪标签生成

在测试阶段，我们所能访问的信息仅包括未标注的视频样本 $V = \{x_i\}_{i=1}^N$ 以及类别集合 $\mathcal{C}$ 。尽管缺乏监督信号，我们仍可以借助模型 $\mathcal{M}$ 中已编码的知识来缓解这一问题 —— 近年来，VLM 在多个分类任务中已展示出强大的零样本能力。

首先，我们使用视觉编码器 $\mathcal{E}_V$ 提取视频所有帧的特征，并计算其平均表示作为整个视频的紧凑表示形式：

$\bar{V} = \frac{1}{N} \sum_{i=1}^{N} \mathcal{E}_V(x_i) \tag{1}$

通过该紧凑表示，可以有效缓解视频中无关帧带来的噪声干扰。因此，我们使用 $\bar{V}$ 与每个类别的文本表示进行相似度计算，获取该视频的伪标签 $y^*$ ，方法是选择与之余弦相似度最高的类别：

$y^* = \underset{y \in \mathcal{C}}{\arg\max} \; \cos \left( \bar{V}, \mathcal{E}_L(y) \right) \tag{2}$

其中， $\cos(\cdot, \cdot)$ 表示余弦相似度函数。

我们将所得到的伪标签 $y^*$ 用作后续动作定位流程的引导基础，从而实现对动作出现区域的更精细时序级预测。

4.3 自监督预测优化

本节的目标是将上一阶段获得的粗粒度视频伪标签进一步优化，从而准确地在视频中定位该类别动作出现的时序区域。

视频 $V$ 中包含两类帧：

与伪标签 $y^*$ 高度相关的帧；
与 $y^*$ 无明显关联的背景帧。

模型 $\mathcal{M}$ 可以较好地区分这些极端样本，但对处于边界或模糊地带的帧（即，可能含有动作相关视觉信息但未构成完整动作的帧）仍容易产生误判。

基于此直觉，我们提出利用模型在高置信度帧上的判断来辅助低置信度帧的预测，从而过滤噪声、提升定位精度。具体方法如下：

我们计算每帧与伪标签 $y^*$ 的语义接近程度作为打分：

$s_i = \cos\left(\mathcal{E}_V(x_i), \mathcal{E}_L(y^*)\right) \tag{3}$

同时，记每帧的视觉特征表示为： $z_i = \mathcal{E}_V(x_i)$

其中，得分 $s_i$ 越高表示该帧越可能为前景（即，动作出现），而得分较低的帧可能为背景内容。

基于这一判断，我们构造两个集合：

正样本集合 $\mathcal{Z}^+$ ：包含得分较高的帧；
负样本集合 $\mathcal{Z}^-$ ：包含得分较低的帧。

构造如下：

$\mathcal{Z}^+ = \left\{(z_i^+, s_i^+)\right\}_{i=1}^{K}, \quad \mathcal{Z}^- = \left\{(z_i^-, s_i^-)\right\}_{i=1}^{K} \tag{4}$

其中，所选的 $K$ 个特征在时间维度上具有一定扰动，以避免集中在局部区域，从而保证采样多样性。

我们的自监督目标是通过最小化以下损失函数进行模型适应：

$\left(\theta_{P_V}^*, \theta_{P_L}^*, \tau^* \right) = \arg\min_{\theta_P, \tau} \; \mathcal{L} \tag{5}$

其中， $\theta_P = (\theta_{P_V}, \theta_{P_L})$ 表示视觉与语言投影头的参数，仅这些模块会被微调，温度参数 $\tau$ 同样可训练。

损失函数被拆解为两部分：

$\mathcal{L} = \mathcal{L}_z + \mathcal{L}_s \tag{6}$

$\mathcal{L}_z$ ：表示学习损失（Representation loss），用于拉近正样本在嵌入空间中的距离；
$\mathcal{L}_s$ ：分离损失（Separation loss），用于拉大正负样本得分间的距离。

我们将 $\mathcal{L}_z$ 仅应用于正样本集合 $\mathcal{Z}^+$ ，而不对负样本施加该约束，原因在于背景帧具有高度多样性，强行压缩其语义可能会破坏信息表示。

为此，我们使用 BYOL【5】的自监督损失，该方法在无负样本设置下表现出良好聚类能力：

$\mathcal{L}_z = 2 - 2 \cdot \frac{\langle z_i^+, z_j^+ \rangle}{\|z_i^+\|_2 \cdot \|z_j^+\|_2} \tag{7}$

其中， $z_i^+, z_j^+$ 为随机从 $\mathcal{Z}^+$ 中采样的特征向量。

对于 $\mathcal{L}_s$ ，我们将其应用于正负样本打分 $s_i^+, s_i^-$ ，目标是将正样本得分拉近1，负样本得分拉近0。该损失形式与 BYOL 相似，构造方式如下：

构造预测向量：

$\text{concat}\left(\{s_i^+\}_{i=1}^K, \{s_i^-\}_{i=1}^K\right) \in \mathbb{R}^{2K} \tag{8}$

构造对应的二进制目标标签：
在这里插入图片描述

$\left[ \underbrace{1, \ldots, 1}_{K}, \underbrace{0, \ldots, 0}_{K} \right] \in \mathbb{R}^{2K} \tag{9}$

最终损失为：

$\mathcal{L}_s = 2 - 2 \cdot \frac{\langle s, b \rangle}{\|s\|_2 \cdot \|b\|_2} \tag{10}$

在每一步测试时自适应迭代中，我们都会重新采样 $\mathcal{Z}^+$ 与 $\mathcal{Z}^-$ 。经过 $T$ 步后，模型为视频 $V$ 中每一帧分配一个最终得分。

为了增强时间一致性，我们对得分序列执行滑动平均，然后设置一个阈值 $\gamma$ 进行动作候选区域提取。不同于固定阈值，我们设定： $\gamma = \text{平均帧得分}$

将高于阈值的连续帧组合为候选区域，得到动作区域提议： $\{ \hat{t}_i \}_{i=1}^{\hat{M}}$

最终，我们对每个区域内的帧进行平均以获取区域级表示，并将其与文本类别计算相似度，选取最相近的类别作为区域标签：

$\hat{y}_i = \arg\max_{y \in \mathcal{C}} \cos(\bar{z}_{\hat{t}_i}, \mathcal{E}_L(y))$

4.4 文本引导的区域抑制

本阶段旨在减少模型可能错误预测的动作候选区域。为此，我们利用现有字幕生成模型的语义指导能力，从文本模态中识别语义变化。

具体而言，我们对所有属于候选动作区域的帧进行字幕生成。然后，将生成的字幕输入语言编码器 $\mathcal{E}_L$ ，并对属于同一动作提议 $\hat{t}_i$ 的字幕向量进行平均，得到该区域的语义表示 $d_i$ 。

随后，我们计算所有区域之间的两两余弦相似度，构建语义相似度矩阵：

$[d_{ij}], \quad d_{ij} = \cos(d_i, d_j) \tag{11}$

接着，我们使用阈值 $\beta$ 对该矩阵进行二值化处理，得到掩码矩阵 $\hat{D}$ 。再对每列求和，得到得分向量：

$\mathbf{d} = \hat{D} \cdot \text{diag}(\mathbb{I}_{\hat{M}}) \in \mathbb{R}^{\hat{M}}$

其中， $\hat{M}$ 表示当前预测的区域总数。

最后，若某个区域 $\hat{t}_i$ 的对应得分低于阈值 $\alpha$ ，则表示其对应的文本表示与其他区域之间缺乏语义一致性，我们将其视为低置信度区域并予以抑制。

最终输出为：

$\{(y_i, t_i)\}_{i=1}^{M}, \quad \text{其中 } M \leq \hat{M}$

在完成视频 $V$ 的预测后，我们会丢弃所有在自适应过程中更新的参数：

$\left(\theta_{P_V}^*, \theta_{P_L}^*, \tau^*\right)$

并将其重置为原始的预训练参数，以备下一个视频使用。

我们使用的字幕模型为 CoCa【31】，该模型采用双编码器结构（视觉与语言）并包含一个额外的文本解码器。其训练目标融合了对比学习损失与字幕生成损失，能够同时支持图文分类与生成任务。这一特性使得 CoCa 十分适用于我们的框架，可同时用于动作分类、候选生成与文本引导的区域抑制。

5. 实验

数据集与设定

我们在两个流行的未裁剪视频数据集上进行了实验，分别为 ActivityNet-v1.3【6】和 THUMOS14【7】：

ActivityNet-v1.3：包含 19,994 个视频，涵盖 200 个动作类别；
THUMOS14：包含 413 个视频，涵盖 20 个动作类别。

遵循【9】的设定，我们将类别集合划分为训练集和测试集，分别构建 50%-50% 和 75%-25% 的“已见类别-未见类别”划分（seen/unseen split）。为了保证统计显著性，我们对每种划分重复采样 10 次，并报告平均结果。

评价指标

我们采用平均精度均值（mean Average Precision, mAP），在不同的时间 IoU 阈值下进行评估。

对于 THUMOS14，我们在 IoU 阈值集合 $[0.3, 0.4, 0.5, 0.6, 0.7]$ 上报告 mAP；
对于 ActivityNet-v1.3，则采用 $[0.5 : 0.05 : 0.95]$ 的标准设定。

实现细节

我们提取视频的 RGB 帧，保持原始帧率，并将分辨率调整为 $224 \times 224$ ；
类别名称采用模板方式构造提示词，形式为：“a video of action {CLS}”，用于 T3AL 与所有基线方法；
模型使用 CoCa（ViT-L/14），我们基于 OpenCLIP 的实现【8】进行修改；
在 THUMOS14 上最多进行 $T = 50$ 步测试时自适应，在 ActivityNet-v1.3 上设为 $T = 25$ ；
- 若在连续 5 步内损失未下降，则提前停止（early stopping）；
使用 Adam 优化器，学习率设为 $10^{-5}$ ；
抑制模块中，超参数设置为： $\alpha = 0.5$ 、 $\beta = 0.75$ 、 $K = 4/20$ （分别用于 THUMOS14 / ActivityNet-v1.3）；
在 THUMOS14 上，我们观察到将伪标签 $y^*$ 从视觉特征中减去可提升前背景区分度，因此执行如下操作：

$z_i' = z_i - \mathcal{E}_L(y^*)$
- 而在 ActivityNet-v1.3 上执行该操作反而带来性能下降，原因可能是视频长度显著不同；
- 因此，我们仅在 THUMOS14 上执行上述背景移除操作；
所有实验均在单张 NVIDIA V100 GPU 上，以浮点精度（float precision）运行。

5.1 比较结果

由于目前尚无在零样本时序动作定位（ZS-TAL）任务上完全不使用训练数据的方法，因此我们基于现有预训练的视觉语言模型（VLM）提出三个基线：

CLIP（ViT-B/32）
CLIP（ViT-B/16）【22】
CoCa（ViT-L/14）【31】

下文中我们分别简称它们为 CLIP32、CLIP16 和 CoCa。

对每种基线方法，其最朴素的时序动作定位方案是对每一帧独立地进行分类。我们计算每帧图像表示与类别提示词文本表示的余弦相似度，再通过 softmax 转换为概率。随后，我们对每一帧是否属于动作类别进行判断：

若预测类别的概率高于 0.8，则视为前景帧；
否则视为背景。

我们还报告了一个两阶段的基线，称为 CLIP16 w/ Detector，其组成如下：

使用一个预训练的动作候选区域检测器【14】生成 proposal；
使用 CLIP 对 proposal 进行分类【9, 20】。

此外，我们也展示了我们方法的一个特例 —— 不执行任何测试时自适应（即 $T = 0$ ），记作 T3AL $_{T=0}$ 。

下表展示了我们在 THUMOS14 数据集上，50%-seen / 50%-unseen 类别划分下的结果：

表 1. THUMOS14 (50%-50%) 上的 mAP (%) 比较

在这里插入图片描述

绿色为我们的结果，紫色为依赖训练数据的方法。

我们进一步在 THUMOS14 的 75%-25% 类别划分上重复实验：

表 2. THUMOS14 (75%-25%) 上的 mAP (%) 比较

在这里插入图片描述

我们在 ActivityNet-v1.3 数据集上也进行了类似实验，并分别在 50%-seen / 50%-unseen 及 75%-seen / 25%-unseen 的类别划分设定下进行评估。

我们的发现如下：

三个零训练基线（CLIP32、CLIP16、CoCa）在该任务中表现较差；
使用我们提出的视频级伪标签机制，即使不进行测试时自适应（T3AL $_{T=0}$ ），也能显著提升性能；
在执行完整的 T3AL 流程后，我们在两个划分设定下均取得进一步提升。

表 3. ActivityNet-v1.3 上 50%-seen / 50%-unseen 划分的 mAP (%) 结果。
绿色为我们的方法，紫色为基于训练的数据驱动方法。

表 4. ActivityNet-v1.3 上 75%-seen / 25%-unseen 划分的 mAP (%) 结果。
绿色为我们的方法，紫色为基于训练的数据驱动方法。

所有结果表明：
直接使用 VLM 执行 ZS-TAL 是远远不够的。而通过我们提出的视频级伪标签机制（见第 4 节）可以大幅提升性能：

在 ActivityNet-v1.3 上，T3AL $_{T=0}$ （不含 TTA）相较于基线平均提升 +12.4% mAP；
而完整的 T3AL 流程进一步带来额外 +1.0% mAP 提升。

请注意，更多补充实验结果请参阅附录材料。

5.2 消融实验

我们在 THUMOS14 数据集上对 T3AL 框架进行详尽的消融实验，以验证各个设计选择的有效性。我们依次分析了：

自监督学习目标函数；
参与微调的模块；
最后阶段的文本引导抑制策略；
以及一系列 Oracle 实验，以揭示方法在最理想条件下的潜力。

除非另有说明，实验均基于 50%-seen / 50%-unseen 类别划分，并在 10 个随机划分上报告平均结果以保证统计显著性。

学习目标函数。
我们在下表中分析了第 4.3 节定义的自监督目标函数以及不同模块微调配置的影响。我们将其与二元交叉熵损失（BCE）在相同输入下的表现进行对比。

结果表明：

表征损失 $\mathcal{L}_z$ 的引入带来显著性能提升（见第3-4行），相较于单独使用分离损失 $\mathcal{L}_s$ 更为有效（见第1-2行）；
当我们联合使用 $\mathcal{L}_z + \mathcal{L}_s$ ，并同时微调视觉与语言投影头时，模型 mAP 达到最优，相较于 BCE 提升约 +2.0%。

表 5. 不同自监督损失配置的 mAP (%) 对比结果（THUMOS14，50%-50% 划分）。
绿色为我们采用的最终配置。

文本引导抑制机制。
我们在下表中验证了第 4.4 节中提出的最终抑制策略的有效性。我们在 THUMOS14 的两个划分设定下分别报告了引入与不引入该模块时的性能对比。

实验发现：
在所有划分设置中，引入文本引导抑制均可带来正向增益，说明利用字幕引导的语义一致性策略对于去除错误提议是有效的。
在这里插入图片描述

表 6. 文本引导区域抑制模块对比实验结果（THUMOS14，50%-50% 与 75%-25% 划分）。
绿色为包含文本抑制模块的配置。

Oracle 分析。
为了探索我们方法在理想条件下的性能上限，我们对 T3AL 框架进行了增强实验，逐步用完美信息替代关键组件。我们考察了以下三个“完美设定”：

完美的视频级类别预测（Perfect class prediction）：假设存在一个分类器，能对视频平均特征 100% 正确地预测类别，替换我们实际生成的伪标签 $y^*$ ；
完美的动作区域数量（Perfect region count）：假设我们事先知道视频中真实的动作数量 $m$ ，在自适应后对区域打分排序，仅保留前 $m$ 个；
完美的正负样本选择（Perfect selection）：假设我们知道哪些时间段包含动作，正样本仅从这些时间段内采样，负样本仅从其外部采样。

我们还进行了一个“全完美设定”（All Perfect）：将以上三者同时替换。
在这里插入图片描述

图 4. Oracle 分析结果（mAP vs IoU 阈值）。我们报告在引入不同程度完美信息后模型的性能变化，包括完美类别、完美区域数、完美正负采样，以及三者联合设定。结果显示，在无训练数据的前提下，我们仍可超过现有训练驱动模型的性能。

实验发现如下：

使用完美伪标签可带来约 +1.2% mAP 提升；
使用真实动作区域数量进行筛选则带来 +1.3% mAP 提升；
使用真实动作位置作为正负样本选择标准，可带来更显著的增益，提升至 17.4% mAP，即 +7.0% 相对增益；
联合三者后，最终 mAP 提升至 22.6%，可媲美甚至超越在 THUMOS14 上训练的最先进方法。

值得注意的是：上述 Oracle 实验中，我们仍保持与主方法相同的最大测试时自适应迭代步数 $T$ ，尽管在放松假设下理论上可进一步提升性能。

讨论

我们的研究指出了现有零样本时序动作定位（ZS-TAL）文献中的一个不足，即这些模型在分布外泛化能力上的缺陷。基于这一观察，我们提出了T3AL，一种基于测试时自适应的创新方法，可以在无任何训练数据的情况下对模型进行微调。我们的方法扩展了通用视觉语言模型（VLM），即在图像数据上预训练且未针对时序动作定位进行微调的模型，使其能够联合适应视频数据，并以零样本方式学习定位动作。我们通过仅对单个未标注视频样本进行适应，成功实现了这一目标。实验评估证实，测试时自适应是一个有前景的方向，能够1）校准VLM以解决视频中的动作定位问题，2）缓解当前ZS-TAL方法中的分布外泛化问题。此外，我们对部分完美信息的研究表明，测试时自适应在无需标注样本训练的情况下，可以达到甚至超越当前最先进方法的性能。

局限性。T3AL高度依赖于优质的正负样本，这对充分适应未标注数据至关重要。我们的选择策略是将语义上更接近视频伪标签的帧标记为正样本，而较不相似的帧则作为负样本。然而，以此方式选取的负样本中可能包含完全无关的内容，如标题或黑屏，这些样本相比更具信息量的“难负样本”而言是不理想的。所谓难负样本，指的是与视频中动作高度相关但不属于真实标签区域的帧，这类样本为适应过程提供了更有价值的信息。此外，视频级伪标签将每个视频限制为只有一个动作，这理想化了现实场景中可能同时出现多动作的情况。

潜在方向。尽管我们提出测试时自适应来解决当前ZS-TAL模型的分布外问题，但我们也认可其他方向作为可行的替代方案，例如跨域评估协议（目前已在视频动作识别中有所研究）或无源域方法 [29, 32]。我们还认为，针对视频数据预训练的VLM将为时序视觉任务提供更好的起点，类似于预训练的动作定位器，从而更好地适应测试时的变化。最后，我们的结果也部分表明，带注释的训练数据并非超越当前最先进ZS-TAL方法的必要条件。虽然本文未进行深入探讨，但我们推测这可能与动作数据集标签空间中固有的噪声有关。现有标注缺乏明确定义的分类体系，即当前方法必须兼顾动作动词、描述动作的名词和活动（即一系列原子动作的连续）。我们主张建立系统化的动作分类体系，作为未来推动动作相关视觉任务发展的关键步骤。

查看全文

http://www.xdnf.cn/news/696961.html