当前位置：首页 > news >正文

全类别通用！提升11%！CAReg：超越FSAD实现少样本异常检测！

news 2025/6/6 9:17:10

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章介绍了一种名为CAReg的新型训练方法，用于少样本异常检测（FSAD）。该方法通过学习跨不同类别的可泛化的注册技术，仅使用每个类别的正常图像。这使得模型能够在未见过的新领域中准确地将测试图像与其对应的支持（正常）图像进行配准，而无需重新训练或参数微调。实验结果表明，CAReg在标准基准数据集上的异常检测和异常定位任务中优于最先进的FSAD方法。即使与使用更大量数据训练的异常检测方法相比，CAReg仍然具有竞争力。它显著提高了FSAD的准确性和效率，展示了其在实际异常检测应用中的潜力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Few-Shot Anomaly Detection via Category-Agnostic Registration Learning

作者：Chaoqin Huang, Haoyan Guan等

作者机构：Cooperative Medianet Innovation Center, Shanghai Jiao Tong University等

论文链接：https://arxiv.org/pdf/2406.08810

2. 摘要

大多数现有的异常检测方法需要为每个类别构建一个专用模型。尽管这种模式能够产生有希望的结果，但计算成本高且效率低，无法满足实际应用的要求。受到人类检测异常方式的启发，即通过将查询图像与已知的正常图像进行比较，本文提出了一种新颖的少样本异常检测（FSAD）框架。利用来自不同类别的正常图像训练集，通过配准对齐相同类别的正常图像，作为自监督类别无关表示学习的代理任务。在测试时，提供一个图像及其对应的支持集，该支持集包含来自同一类别的少量正常图像，并通过比较测试图像的配准特征与其对应的支持图像特征来识别异常。这样的设置使模型能够推广到新的测试类别。据我们所知，这是第一个不需要对新类别进行模型微调的FSAD方法：允许单个模型应用于所有类别。大量实验表明了所提方法的有效性。特别是，它在MVTec和MPDD基准上分别提高了当前最先进的FSAD性能11.3%和8.3%。源代码可在https://github.com/Haoyan-Guan/CAReg获得。

3. 效果展示

MVTec(上三排)和MPDD(下两排)异常定位结果的可视化。

从MVTec学习的特征的t-SNE可视化。两种方法使用相同的t-SNE优化迭代。CAREG导致每个类别的特征分布更加紧凑，类别之间的分离更大。

4. 主要贡献

CAReg是第一个适用于所有类别的FSAD框架，在训练时不需要异常图像，测试时不需要参数微调。
特征配准作为代理任务用于训练异常检测模型，展示了跨类别和数据集的广泛泛化能力。
CAReg在标准基准数据集上的异常检测和异常定位任务中，优于最先进的FSAD方法。

5. 基本原理是啥？

本文的基本原理是提出了一种少样本异常检测（Few-Shot Anomaly Detection，FSAD）方法，该方法旨在使用少量的正常图像来检测异常图像：

少样本设定：本文的方法基于少量正常图像的支持集。这些正常图像用于估计目标类别的正态分布，从而帮助检测在测试阶段出现的异常图像。

配准（Registration）：利用配准网络对支持集的图像进行配准，以提取配准特征。这些特征用于建立目标类别的正态分布。

正态分布估计：通过估计支持集中正常图像的特征分布来构建正态分布。本文介绍了三种流行的正态分布估计方法：PaDim、OrthoAD和PatchCore。这些方法用于估计每个图像补丁位置的均值和协方差矩阵，进而建立多变量高斯分布。

增强选择模块：提出了一种基于Wasserstein距离的数据增强选择机制，以选择最适合每个类别的数据增强方法。这些增强方法有助于扩展支持集，增强分布估计的鲁棒性。

异常检测：在推理阶段，将测试图像的配准特征与估计的正态分布进行比较。使用特定的距离函数（例如马氏距离或L2距离）来计算异常得分，高异常得分表示测试图像中的异常区域。

复杂度分析：对三种估计方法和相应距离函数的计算复杂度进行了分析，确保所提方法在计算和内存消耗方面具有较高的效率。

6. 实验结果

本文的实验主要围绕在工业缺陷检测领域中，针对少样本学习（Few-Shot Learning, FSL）场景下的异常检测（Anomaly Detection, AD）任务展开。研究者首先介绍了两个主要的工业AD数据集：MVTec AD数据集和MPDD数据集，分别包含了工业缺陷检测的图像数据。其中，MVTec AD数据集具有挑战性，包含15个类别，共计3629张训练图像和1725张测试图像，而MPDD数据集则专注于捕获金属部件制造过程中的缺陷，比MVTec AD更加复杂和具有挑战性。

实验设置方面，研究者采用了留一验证（leave-one-out）的设置，将一个指定的目标类别用于测试，而将数据集中其余的类别用于训练。实验旨在评估模型在面对未见过的类别时的AD性能，从而评估模型在训练过程中对所有类别的泛化能力。为了创建具有挑战性的少样本学习环境，所有与目标类别对应的数据都被排除在训练集之外，在测试过程中，只有极少量来自目标类别的正常样本被提供。

在对比方法和基线方面，本文考虑了两种最先进的FSAD方法作为基线模型，分别是TDG和DiffNet。研究者还对这些方法进行了扩展，通过预训练过程利用来自多个类别的数据，得到了TDG+和DiffNet+。此外，为了展示CAReg在FSAD中超越普通分布估计器的有效性，还考虑了三种最先进的统计学基础的正态分布估计方法，分别是PaDiM、OrthoAD（OAD）和PatchCore（PC）。

在评估协议和模型配置方面，研究者使用了接收器操作特征曲线下面积（AUC）作为模型性能的量化指标，分别考虑了图像级别的AUC和像素级别的AUC，用于衡量异常检测和异常定位的性能。模型配置方面，研究者采用了ResNet-18作为注册的骨干网络，使用了与先前工作中相似的编码器和预测器。模型参数在单个NVIDIA GTX 3090 GPU上训练，图像被调整为224×224像素的分辨率，使用了标准的图像增强方法，并采用了余弦学习率调度程序更新初始学习率。

实验结果表明，与基线方法相比，CAReg在少样本学习场景下取得了显著的性能提升。在MVTec数据集上，当K=2、4、8时，CAReg分别比PaDiM提高了10.8%、11.2%、10.7%的AUC，在MPDD数据集上分别比PaDiM提高了15.2%、14.1%、17.0%的AUC。此外，与当前最先进的方法PatchCore相比，CAReg在MVTec和MPDD上平均AUC分别提高了4.4%、4.9%、3.8%和8.8%、7.9%、7.4%。综合来看，CAReg在各类别和各种K值的实验中都取得了显著的性能提升，表明其在FSAD任务中具有较强的泛化能力和优越的性能。

总的来说，本文通过实验证明了CAReg方法在工业缺陷检测任务中的有效性和优越性，为少样本学习场景下的异常检测任务提供了一种有效的解决方案。

7. 总结 & 未来工作

本文介绍了一种新颖的训练方法，称为CAReg，用于少样本异常检测（FSAD），通过学习跨不同类别的可泛化的注册技术，仅使用每个类别的正常图像。这使得模型能够准确地将测试图像与来自未见过的新领域的支持（正常）图像进行配准，而无需重新训练或参数微调。实验结果表明，CAReg在标准基准数据集上的异常检测和异常定位任务中优于最先进的FSAD方法。即使与使用更大量数据训练的异常检测方法相比，CAReg仍然具有竞争力。它显著提高了FSAD的准确性和效率，展示了其在实际异常检测应用中的巨大潜力。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多