当前位置：首页 > ds >正文

Towards Multi-Domain Learning for Generalizable Video Anomaly Detection

ds 2025/7/13 21:52:24

NeurIPS 2024

https://proceedings.neurips.cc/paper_files/paper/2024/file/59eb2d8ce0e4830f80780f7f78c67dec-Paper-Conference.pdf

Abstract

现有的大多数视频异常检测（VAD）研究都是在单域学习框架下进行的，即训练和评估都基于单个数据集。然而，不同的VAD数据集对异常事件的定义标准存在差异，这使得单域模型在其他领域的应用面临问题。在本文中，我们提出了一项名为视频异常检测多域学习（MDVAD）的新任务，旨在通过使用多个数据集训练通用模型，探索现实世界中的各种异常事件。MDVAD需要同时在来自多个领域的数据集上进行训练，我们通过实验观察到，域间的异常冲突会阻碍学习过程和模型的泛化能力。该任务旨在实现两个关键目标：（i）更好地区分多个领域中的一般正常事件和异常事件；（ii）识别模糊的异常冲突。本文首次针对异常冲突问题展开研究，并为MDVAD引入了新的基准数据集、基线方法和评估协议。作为基线，我们提出了一种结合零（角度）-多实例学习和异常冲突分类器的框架。通过在由六个VAD数据集组成的MDVAD基准数据集上进行实验，并采用四种不同的评估协议，我们揭示了异常冲突的存在，并证明了所提出的基线方法能够有效处理这些冲突，展现出在多个领域中的稳健性和适应性。

1 Introduction

视频异常检测（VAD）是指识别视频中各种场景下的异常事件，并在帧级别确定其发生的时间间隔。如今，监控摄像头无处不在，记录着生活的每一刻，这有助于预防事故并及时应对犯罪行为。然而，人工监控每一个场景的效率非常低，需要大量的人力和资源。因此，人们开展了大量研究，通过深度学习利用大量监控数据实现视频异常检测的自动化[33, 5, 24, 15, 55, 44, 43, 50, 21, 7]。

在视频异常检测研究中，弱监督视频异常检测（WVAD）[55, 44, 43, 50, 21, 7]近年来受到了广泛研究。这种方法通过最少的视频级标注来学习正常和异常事件，并在测试时在帧级别检测异常事件。本文聚焦于弱监督视频异常检测（标记为VAD），补充材料（§ E）对视频异常检测研究进行了总结。与传统的视频异常检测研究不同，我们首先探讨以下三个关键问题：

问题1：现有视频异常检测（VAD）模型存在什么问题？大多数VAD模型在单域中进行训练，其训练数据集和评估数据集是相同的。在单域学习的情况下，正如文献[14, 6, 7]所报道的那样，跨不同数据集应用（跨域评估）会导致性能下降，这是因为VAD模型深受每个数据集所定义的异常标准的影响。

问题2：为什么我们需要一个通用的视频异常检测（VAD）模型？首先，一个通用模型可以避免为不同领域构建多个特定模型的需求，这与多任务学习类似。其次，在多个领域上进行适当的预训练能够体现通用的特征表示，并且它可以根据不同领域来区分异常事件，从而在未知的目标领域中实现更好的性能表现。因此，一个通用的VAD模型对于在实际场景中应用视频异常检测将非常有益。

问题3：是否有可能创建一个通用的视频异常检测（VAD）模型？通用VAD模型旨在处理多个领域的情况，但这具有挑战性，因为每个数据集对异常的定义不同，这会导致这些异常事件之间产生冲突。例如，如图1（a）所示，在一个数据集中，道路上的行人被视为正常情况，而在另一个数据集中，这被认为是异常情况。由于多个领域之间存在这种混淆，简单的多任务学习无法解决通用VAD问题，本文将这种混淆定义为 “异常冲突”。因此，对于通用VAD而言，有必要意识到这些异常冲突（图1（b）中的黄色区域），并学习所有领域通用的一般正常（图1（b）中的绿色区域）或异常（图1（b）中的红色区域）表示。

图1：(a) 异常冲突示例：在UCFC数据集中，道路上的行人属于正常情况，但在TAD数据集中则属于异常情况。(b) 每个圆圈代表一个领域。MDVAD旨在设计一种通用模型，该模型能有效考虑异常冲突，从而区分一般正常事件和异常事件。

我们的目标是通过进行多域学习来构建一个通用的视频异常检测（VAD）模型，同时识别异常冲突，并探索通用的正常和异常表示。为了实现这一目标，我们引入了一项名为1）多域视频异常检测（MDVAD）的新任务，以及一个基准数据集和新的评估协议。MDVAD需要同时在多个具有各自异常定义的VAD数据集上进行训练。具体来说，MDVAD基准数据集由六个具有代表性的VAD数据集组成，并进行了平衡采样（见4.1节）。我们还提出了四种评估协议：留一法（held-in）、留一数据集法（leave-one-out）、少样本域适应（low-shot domain adaptation）和全量微调（full fine-tuning）。留一法协议旨在评估模型作为一个统一模型（如多任务模型）的能力，而留一数据集法、少样本域适应和全量微调协议则旨在评估模型作为未知目标域通用预训练模型的能力。

由于多域学习在视频异常检测（VAD）领域是一个新的概念，我们还引入了基线方法和新的学习方法。我们设计了特定领域的多头结构，以减轻异常冲突，并学习跨领域的通用特征。为了便于在无冲突的情况下进行多头学习，我们提出了2）零多实例学习（Null-MIL）和零角度多实例学习（NullAng-MIL）损失函数，它们仅激活与输入领域相对应的头的输出，将非活动头赋值为零以避免混淆。此外，我们提出了3）异常冲突（AC）分类器，利用多头之间异常分数的差异（图2维恩图中的绿色和黄色区域），在识别异常冲突的同时探索通用特征。通过在MDVAD基准数据集上使用四种协议进行实验，我们揭示了存在异常冲突时多域学习的局限性，并证明了我们的基线方法在提供通用且自适应模型方面的有效性。

1.1 Scope of research

聚焦多领域。在本文中，我们专注于解决上述多领域中存在的问题，而非单个领域的问题。因此，骨干网络和头部的复杂设计，或者在单个领域中实现最先进的性能，这些都与我们的研究并不冲突。相反，本文提出了异常冲突问题，并着重探讨了多领域视频异常检测（MDVAD）的必要性。

与开放集视频异常检测方法的区别。开放集视频异常检测方法[59, 25, 1]在单域内区分已见和未见异常，无法在多域间实现稳健的表征学习。与之不同，本文提出的方法擅长处理异常冲突，并且通过多种评估协议（留一法/留一数据集法和少样本学习）展现出跨域适应性。

2 Observations

2.1 Datasets

在本文中，我们使用了六个具有代表性的视频异常检测（VAD）数据集：UCF-Crimes（UCFC）[43]、XD-Violences（XD）[51]、Large-scale Anomaly Detection（LAD）[47]、UBI-Fights（UBIF）[9]、Traffic Anomaly Dataset（TAD）[19]以及Shanghai-Tech Campus（ST）[24]。如表1所示，每个数据集都有不同的环境（例如监控场景、交通场景、校园场景）、数据量和异常类别。与其他数据集不同，ST是一个无监督的视频异常检测基准数据集，其训练集仅包含正常视频，因此我们按照文献[21, 45, 57]的方法对其训练集进行了重新整理。更多详细信息在补充材料（A节）中提供。

2.2 Analysis

基于对每个数据集属性的观察，我们旨在量化不同属性对域转移的负面影响程度。表2展示了跨域评估结果，即单域模型在不同目标数据集上的验证情况。结果表明，虽然这些模型在域内设置（表格中的对角线元素）下表现出色，但在跨域场景中，其性能会显著下降。这意味着，除非环境和用户意图完全一致，否则单域视频异常检测（VAD）模型在大多数其他环境中可能效果不佳。因此，利用多样化的数据集进行通用特征学习至关重要，这能让模型处理未知领域的情况，并能很好地适应未见过的异常情况。本文主要解决两个问题：一是多域学习过程中出现的异常冲突问题；二是在对未知目标域进行评估时出现的场景差异问题。

异常冲突。如图1所示，异常冲突指的是在一个（或某些）领域中被视为异常，但在其他领域中却被标记为正常的事件。如表1所示，上海科技大学校园数据集（ST）与其他数据集的异常类别重叠较少。换句话说，这意味着它与其他数据集的异常冲突相对较大。这种冲突导致在表2中，在ST数据集上训练或评估的模型在跨数据集测试时性能较低。以上述UCF犯罪数据集（UCFC）为例（目标领域：表2中UCFC列），模型性能按交通异常数据集（TAD）、ST、大规模异常检测数据集（LAD）、XD暴力数据集（XD）和UBI打架数据集（UBIF）的顺序提升，这与源领域中存在的异常冲突类别的数量成正比。异常冲突使得多领域视频异常检测（MDVAD）任务独具挑战性，因为不同领域之间的标签空间由于定义不同而产生了实际冲突。

场景差异。场景差异指的是场景视觉设置方面的差异，它与因异常类别定义不同而产生的异常冲突有所区别。为了量化场景差异，我们利用了文献[8]中引入的推土机距离（EMD）[38]来计算表3中视频异常检测（VAD）数据集之间的距离。在表3中，右上角部分展示了正常特征的比较，而左下角则给出了各类别异常特征的数值比较。颜色越浅，表示数据集之间的差异越大。与其他数据集不同，由交通视频组成的交通异常数据集（TAD）与数据集中正常样本的距离差异较大，而大规模异常检测数据集（LAD）由于其异常类别的场景多样且复杂，与其3 Baselines他数据集的距离差异最大。这就解释了域适应实验的结果（见表7）。

3 Baselines

图2展示了我们多域视频异常检测（MDVAD）基线的整体框架，该框架分为领域无关层（由视频骨干网络和聚合模块组成）、单头（3.1节）或多头（3.2节）以及异常冲突（AC）分类器（3.3节）。

图2：我们的多域视频异常检测（MDVAD）基线的整体框架，该框架由领域无关层、单个异常头（3.1节）、多个异常头（3.2节）以及异常冲突（AC）分类器（3.3节）组成。

领域无关层。输入的异常视频\(V^a\)或正常视频\(V^n\)会被均匀采样分割成\(T\)个片段（\(V^a \in \{v^a_1, \cdots, v^a_T\}\)）。这\(T\)个片段通过一个预训练的视频主干网络，得到一个\(C\)维特征\(B \in \mathbb{R}^{T \times C}\)，该特征会经过一个聚合模块，从特征层面到时间层面将这些片段进行融合。特征聚合层会使通道数翻倍，得到\(\hat{B} \in \mathbb{R}^{T \times 2C}\)，接着进行分割和取最大值操作，对于第\(i\)个片段，\(F_{agg,i} = \max_{c = 1,\cdots,C}[\hat{B}^c_i, \hat{B}^{C + c}_i]\)，从而将通道数压缩回\(C\)。在梯度传播过程中，仅激活最大值元素能够对特定类别的通道进行隐式求导，使模型能够区分不同类别之间的差异[7, 52]。时间聚合层的时间核大小为\(3\)，会生成领域无关的聚合特征\(F_{DA} \in \mathbb{R}^{T \times \frac{C}{2}}\) 。

3.1 Single-domain learning

最终特征\(F_{DA}\)会经过标记为\(FC\)的全连接层以及单个异常头（\(w_{D_{1}}^{a} \in \mathbb{R}^{C / 16 ×1}\) ），然后再经过一个 sigmoid 函数，以得出最终的异常分数\(s_{D_{1}}^{a} \in \mathbb{R}^{T ×1}\) ，即多示例学习（MIL）的结果。由于缺乏针对异常事件的时间间隔训练标签，视频异常检测（WVAD）模型依赖于视频级别的标签进行训练，采用了多示例学习（MIL）方法。当得分最高的\(K\)个值组成的集合表示为\(\Omega_{k}(s_{D_{1}}^{a})\) 时，基于二元交叉熵（BCE）的分类损失函数如公式1所示，其中\(y = \{0, 1\}\) 。

\[L_{MIL}=\sum_{i \in \Omega_{k}(s_{D_{1}}^{a})}-\left(y \log s_{D_{1}, i}^{a}+(1 - y) \log \left(1 - s_{D_{1}, i}^{a}\right)\right),\]

这个损失函数确保只有具有高（前\(K\)个）异常分数的片段才能对损失产生影响。这个单头模型充当单域基线（图2中的MIL）。

3.2 Multi-domain learning: Multi-head learning

空值多示例学习（Null-MIL）。为了解决第2节中提到的异常冲突问题，在多域视频异常检测（MDVAD）框架中，异常头被划分为多个头，每个头负责其对应的域，从而能够按域对输出分数进行预测。受文献[18]的启发，对于来自数据集\(D_d\)的输入片段，其预测分数仅由\(D_d\)头的输出得出，而其他数据集的头的结果则用空值填充（如图2中的空值多示例学习（Null-MIL））。与公式1相比，空值多示例学习（Null-MIL）的损失函数变化如下：

\[L_{Null-MIL}=\sum_{d = 1}^{M}\sum_{i\in\Omega_{k}(s_{D_d}^{a})}-(y\log s_{D_d,i}^{a}+(1 - y)\log(1 - s_{D_d,i}^{a})) \quad (2)\]

其中\(M\)是头（域）的数量。为了避免异常冲突，数据集之间的头是相互独立的，其中\(D_d\)头的权重\(w_{D_d}^{a}\)是针对相应数据集独立训练的。在公式2中，所有输出分数中只有\(s_{D_d}^{a}\)被纳入损失计算，因此梯度变为\(\frac{\partial s_{D_d}^{a}}{\partial w_{D_d}^{a}}\)，而其他头不受影响。

在测试时，当目标数据集为\(D_d\)时，第\(i\)个片段的异常分数为\(s_{D_{d,i}i}^{a}\) ，对于未见过的目标数据，则通过选取\(\max _{d} s_{D_{d}, i}^{a}\)（即对不同\(d\)下的\(s_{D_{d}, i}^{a}\)取最大值）来确定异常分数。

基于空值角度的多示例学习（NullAng-MIL）。我们另外提出了一种基于空值角度的多示例学习（MIL）方法，该方法利用角度余量来有效减少类内实例之间的较大差异。在这种情况下，添加了多个正常头（如图2中的基于空值角度的多示例学习（NullAng-MIL））。当每个数据集\(D_d\)的头分类器权重分别表示为\(w_{D_d}^{a}\)和\(w_{D_d}^{n}\)，且最终的嵌入特征为\(F\)时，最终的异常分数和正常分数分别由\(s_{D_d}^{a} = F \cdot w_{D_d}^{a}\)和\(s_{D_d}^{n} = F \cdot w_{D_d}^{n}\)表示。将头权重和特征向量归一化为\(1\)后，得到\(s_{D_d}^{a}=\|F\|\left\|w_{D_d}^{a}\right\|\cos\theta_{D_d}^{a}=\cos\theta_{D_d}^{a}\)和\(s_{D_d}^{n}=\cos\theta_{D_d}^{n}\)，这表示的是余弦相似度。因此，在余弦空间中，公式2可以定义为公式3，该公式要求来自数据集\(D_d\)的特征与异常头\(w_{D_d}^{a}\)之间的最大余弦相似度至少要比正常头\(w_{D_d}^{n}\)的余弦相似度大一个角度余量\(m\)，以此来扩大正常与异常之间的差距。

\[ \max _{i} \cos(\theta_{D_d,i}^{a} + m) > \max _{i} \cos\theta_{D_d,i}^{n} \ (3)\]

将数据集\(D_d\)的头输出的前\(K\)个异常分数记为\(\Omega_{k}(s_{D_d}) = \{s_{D_d,i}^{a}, s_{D_d,i}^{n}\}_{i=\text{top }k\text{ indices}}\)，将公式2改写为一个基于角度裕度的回归问题，就得到了公式4。与空值多示例学习（Null - MIL）类似，损失是由与输入数据集相关联的头来计算的，而其他头的分数对更新模型权重没有影响。

\[L_{NullAng - MIL}=\sum_{d = 1}^{M}\sum_{i\in\Omega_{k}(s_{D_d})}-\left(y\log\frac{e^{\cos(\theta_{D_d,i}^{a}+m)}}{e^{\cos(\theta_{D_d,i}^{a}+m)} + e^{\cos\theta_{D_d,i}^{n}}}+(1 - y)\log\frac{e^{\cos(\theta_{D_d,i}^{n}+m)}}{e^{\cos\theta_{D_d,i}^{a}} + e^{\cos(\theta_{D_d,i}^{n}+m)}}\right)\quad(4)\]

在测试时，由于正常头和异常头是通过角度余量学习进行训练的，异常分数如公式5所示。

\[ \text{Abnormal Score}_{i} = \begin{cases} s_{D_{d}, i}^{a}+(1 - s_{D_{d}, i}^{n}) & \text{source } D_{d}=\text{target} \\ \max _{d} s_{D_{d}, i}^{a}+(1 - \max _{d} s_{D_{d}, i}^{n}) & \text{source}\neq\text{target} \end{cases} \]

当预训练通用模型的源域与目标域不同时，我们通过从多个头中选取最大的正常分数和最大的异常分数来确定最终分数，以反映冲突情况。

未知领域适应。在进行多领域学习之后，当出现新的目标数据集或未知条件时，最终分数是根据输入视频的嵌入特征与每个源领域的头分类器之间的相似度来计算的。因此，它是基于领域相似度来运行的，这能够解决由于第2节中所讨论的场景差异而导致的性能下降问题。

复杂度。仅根据数据集的数量添加最后一层，头的权重表示为\(w_{D_{d}} \in \mathbb{R}^{T ×1}\) ，这在整个模型中所占比例极小。对比单头和多头（6个数据集）的情况，训练时间分别为2.68小时和2.81小时，推理时间则分别为每个片段0.158毫秒和0.164毫秒，这表明复杂度的增加几乎可以忽略不计。

3.3 Abnormal Conflict (AC) classifier

在领域无关的特征提取阶段，捕捉能够处理各个领域的通用特征至关重要。虽然我们对（分类）头进行了划分，以避免在多个源数据集中出现异常冲突，但无关部分是通过单个分支从所有数据集中提取特征的，而不一致的标签会造成混淆。因此，我们提出了一种异常冲突（AC）分类器，用于学习经过检测器头的最终嵌入特征\(F_{DA}\)。

在图2中，每个分类器头用于区分\(D_{d}\)和\(D_{d}^{c}\)，而异常冲突（AC）分类器旨在区分维恩图中所有源数据集中属于异常或正常的元素（绿色区域）与代表冲突的元素（黄色区域）。异常冲突（AC）分类器将嵌入特征\(F_{DA}\)作为输入，然后经过两个全连接层，以预测最终的冲突分数\(s^{AC}\)。在公式6中，异常冲突（AC）标签是基于所有异常头的分数生成的，其中如果分数之间的偏差高于阈值\(T\)，则

\(y_{i}^{AC} = 1\) \[y_{i}^{AC}=\left\{\begin{array}{cc} 1 & {\left[\max _{d} s_{D_{d}, i}^{a}-\min _{d} s_{D_{d}, i}^{a}-\tau\right]_{+}>0} \\ 0 & 否则 \end{array}\right. (6)\]

异常冲突（AC）分类器的损失记为\(L_{AC}\)，使用交叉熵计算如下：

\[L_{AC}=\sum_{i = 1}^{T}-\left(y_{i}^{AC}\log s_{i}^{AC}+(1 - y_{i}^{AC})\log(1 - s_{i}^{AC})\right)\]

总目标函数为\(L = L_{NullAng - MIL}+\lambda L_{AC}\) 。

在测试阶段，辅助分支的异常冲突（AC）分类器会被去除，并且会针对每个输入片段\(v_{i}\)计算输出，该输出将作为最终的异常分数。

4 Experimental Results

4.1 MDVAD benchmark

如表1所示，视频异常检测（VAD）包含六个具有不同设置和数据量的代表性数据集。多域视频异常检测（MDVAD）是一项旨在解决数据集之间领域偏移问题的任务，并且多域视频异常检测基准中包含的每个数据集在结构上都不应偏向于任何特定的数据集或异常情况。因此，数据集中训练集的数据量应相等，并且涵盖各种异常类别和标准。为了实现这一点，我们对每个数据集进行采样，使其与数据量最小的数据集保持一致，确保每个异常类别所占比例相近，并进行了三次实验。此外，对于像TAD和ST这样数据量极少的小数据集，我们分别将它们与交通数据集CADP [41]和校园数据集NWPU [3]合并，方法是重新整理它们的训练集。多域视频异常检测基准中每个数据集的视频数量统一为386个。更多详细信息见补充材料（B部分）。

4.2 Empirical studies

4.3 Discussions

开放集视频异常检测（VAD）。我们在开放集场景下使用UBNormal（UBN）数据集[1]进行了实验。UBN是一个针对开放集场景提出的视频异常检测基准，用于处理意外的异常事件。在训练期间，正常事件和异常事件的数据都可用，但在推理过程中出现的异常属于一组不同的异常类型（类别）。与其他视频异常检测数据集不同，UBN由合成视频组成，以减轻在现实世界中收集异常事件数据的难度。与其他领域相比，在场景的视觉设置方面，存在大量的异常冲突和差异。对于多领域学习，我们重新整理了UBN的训练/测试集，以使训练集中正常视频和异常视频的数量与多域视频异常检测（MDVAD）中的数量相同，并且进行了均匀采样，并从所有领域中选取了相同数量的视频以保持平衡。如表9所示，尽管存在领域差异和异常冲突，该模型仍能有效地处理多领域学习，这表明通用特征学习能够充分应对未见过的异常类别。更多详细信息请参阅§. A5。

与视频级异常检测（WVAD）模型的比较。尽管本文重点在于在异常冲突问题的背景下分析多领域学习，而非探索单领域视频异常检测（VAD）模型的复杂架构设计，但我们还是将其与多种VAD模型进行了比较。表10展示了其他基于多示例学习（MIL）的视频级异常检测（WVAD）模型，即MMIL [43]、ARNet [46]、WSAL [30]和COMO [7] 在多域视频异常检测（MDVAD）任务上的结果。与使用异常冲突（AC）分类器训练的所提出的基线模型相比，我们的方法实现了最高的平均曲线下面积（AUC），尤其是在存在严重异常冲突和场景差异的数据集上，如TAD和ST数据集，无论是在E2设置下，在E3设置下表现得更为突出。各种单领域视频异常检测（VAD）模型或主干网络都可以整合到多域视频异常检测（MDVAD）任务中，这为未来的泛化工作指明了方向。更多详情请参阅§ A6。

异常冲突（AC）分类器。异常冲突（AC）分类器有助于模型学习具备冲突感知能力的特征，从而更清晰地理解异常情况。所提出的框架由领域无关层组成，这些层学习跨多个领域的通用特征，之后是多个头，用于预测每个特定领域的异常情况。当领域无关层学习执行异常冲突（AC）分类任务时，它们会捕捉输入片段是否与异常冲突相关。从（分类）头的角度来看，这些特征在特征空间中被分为异常冲突特征和非异常冲突特征，这使得（分类）头在区分正常实例和异常实例时可以应用不同的标准（决策边界）。例如，在对异常情况进行分类时，非异常冲突场景可以更直接地处理，而异常冲突场景则需要更仔细地研究。图3（a）展示了基于空值角度的多示例学习（NullAng-MIL）基线模型的异常冲突（AC）分类器在E1设置下的结果。它显示了两种场景的异常冲突分数：（上）在ST数据集中“人行道上有一辆车”的异常事件，而这在UCFC数据集中是正常情况；（下）人们在杂货店购物的正常场景。通过多领域学习，异常冲突（AC）分类器对上方的样本输出了较高的异常冲突分数，这表明该模型已经学会了感知冲突。

定性结果。图3（b）展示了异常冲突场景：（上）人行道上的骑自行车者，在ST数据集中属于异常情况，但在其他领域中是正常的；（下）道路上的行人，在TAD数据集中属于异常情况，但在UCFC数据集中是正常的。在这些场景中，经过多领域训练的多示例学习（MIL）基线模型将（上）误判为假阴性，将（下）误判为假阳性，而我们的方法能够自适应地处理不同领域之间的冲突。

图3：（a）异常冲突（AC）分数图。两个场景均来自UCFC数据集，且在UCFC数据集中属于正常情况。（上）黄色方框表示异常冲突情况，该情况在ST数据集中属于异常情况。（下）正常场景。（b）定性结果。红色方框表示场景中的异常事件。（上）ST数据集中人行道上有骑自行车者的异常事件。（下）UCFC数据集中的事故异常事件以及TAD数据集中道路上有行人的异常冲突情况。

5 Conclusion, Limitation, and Future Works

在本文中，我们提出了一项名为多域视频异常检测（MDVAD）的新任务，其最终目标是能够在不产生混淆的情况下，有效地从具有不同数据分布和异常定义的多个领域中进行学习，从而构建出一个通用的视频异常检测（VAD）模型。作为基线模型，我们提出了一个新的多头框架，该框架采用了空值（角度）多示例学习（Null(Ang)-MIL）损失函数和异常冲突（AC）分类器。这些模块能够有效地处理不同领域之间的异常冲突，并且在采用多种评估协议的多域视频异常检测（MDVAD）基准测试中取得了有意义的结果。

本文并非着眼于探究单领域视频异常检测（VAD）模型的复杂架构设计，而是重点解决来自多个领域的异常冲突问题。各种单领域视频异常检测（VAD）模型或主干网络都可以应用于我们全新的框架中，以处理多领域视频异常检测（MDVAD）任务，这为未来的泛化研究指明了一个极具价值的方向。

查看全文

http://www.xdnf.cn/news/1245.html