当前位置: 首页 > news >正文

FiLo++的框架图介绍

FiLo++框架图模块详解


在这里插入图片描述

1. 文本生成模块
  • Normal Texts

    • 功能:生成正常样本的文本描述
    • 输入:固定模板(如 A [domain] photo of [state][cls])和可学习模板(如 [v1][v2]...[vm][state][cls])。
    • 输出:融合后的正常文本提示(例如 “A industrial photo of normal metal nut”)。
    • 传递路径:输入到 CLIP Text Encoder,生成正常文本特征((T_n))。
  • Detailed Abnormal Texts

    • 功能:生成细粒度异常描述,包含异常类型和位置信息。
    • 输入:固定模板(如 A [domain] photo of [state][cls] with [anomaly cls] at [pos])和可学习模板(如 [W1][W2]...[W4][state][cls])。
    • 输出:异常文本提示(例如 “A industrial photo of anomalous metal nut with crack at top-right”)。
    • 传递路径:输入到 CLIP Text Encoder,生成异常文本特征((T_a))。

2. 图像处理模块
  • Query Image

    • 功能:待检测的输入图像。
    • 输入:原始图像数据。
    • 输出:图像经过 CLIP Image Encoder 提取多阶段补丁特征((P_1, P_2, P_3, P_4))。
  • Normal Images (Few-shot Only)

    • 功能:少样本场景下的正常参考图像。
    • 输入:少量正常样本图像。
    • 输出:通过 CLIP Image Encoder 提取补丁特征,存入 Memory Bank

3. 文本编码与过滤模块
  • CLIP Text Encoder

    • 功能:将文本提示编码为特征向量。
    • 输入:正常和异常文本提示。
    • 输出:文本特征 (T_n)(正常)和 (T_a)(异常)。
  • Run-time Prompt Filtering

    • 功能:过滤语义重叠的文本特征,提升正常/异常特征区分度。
    • 输入:原始文本特征 (T_n) 和 (T_a)。
    • 输出:过滤后的高区分度特征 (T’_n) 和 (T’_a)。

4. 初步定位模块
  • Grounding DINO
    • 功能:基于文本描述初步定位潜在异常区域。
    • 输入:Query Image 和异常文本描述。
    • 输出:异常区域边界框(Bounding Box),用于后续特征匹配范围约束。

5. 多尺度交互模块
  • Deformable Conv (MDCI)

    • 功能:通过可变形卷积聚合多尺度图像特征,适应不同形状/大小的异常区域。
    • 输入:多阶段补丁特征 (P_1-P_4)。
    • 输出:跨模态对齐后的异常热力图 (M^{vl})。
  • Stage1-Stage4

    • 功能:分层提取图像补丁特征(不同层级的语义信息)。
    • 输入:原始图像。
    • 输出:各阶段的补丁特征 (P_1, P_2, P_3, P_4)(分辨率递减,语义增强)。

6. 特征对齐与融合模块
  • Adapter

    • 功能:调整全局图像特征,增强与文本特征的相似度计算。
    • 输入:CLIP Image Encoder 的全局特征 (G)。
    • 输出:适配后的全局特征 (G’)。
  • Memory Bank (Few-shot Only)

    • 功能:存储少样本正常图像的补丁特征。
    • 输入:正常参考图像的补丁特征。
    • 输出:用于与查询图像的补丁特征进行匹配,生成少样本异常热力图 (M^{few})。

7. 异常分数计算模块
  • Matrix Multiplication

    • 功能:计算图像特征与文本特征的相似度。
    • 输入:适配后的全局特征 (G’) 和过滤后的文本特征 (T’_n, T’_a)。
    • 输出:全局异常分数 (S_{global})(图像级检测结果)。
  • Global Anomaly Score

    • 功能:融合全局分数与局部热力图,生成最终异常分数。
    • 输入:(S_{global}) 和 (M{vl})(跨模态热力图)、(M{few})(少样本热力图)。
    • 输出:图像级和像素级异常检测结果。

核心流程总结

  1. 文本生成:通过固定模板和LLM生成细粒度文本提示。
  2. 特征提取:CLIP编码器分别处理文本和图像,生成多模态特征。
  3. 初步定位:Grounding DINO过滤背景,缩小检测范围。
  4. 多尺度交互:MDCI模块融合多阶段图像特征与文本特征,生成异常热力图。
  5. 少样本融合:Memory Bank存储正常样本特征,通过补丁匹配增强定位精度。
  6. 分数计算:全局与局部特征融合,输出最终检测结果。

创新点

  • 细粒度文本描述(LLM生成异常类型与位置)提升可解释性。
  • 多尺度可变形卷积(MDCI)适应复杂异常形态。
  • 少样本定位增强(Memory Bank + 位置约束)减少误检。
http://www.xdnf.cn/news/274519.html

相关文章:

  • Oracle OCP认证考试考点详解083系列06
  • JavaWeb:SpringBootWeb增删改查案例
  • terraform resource创建了5台阿里云ecs,如要使用terraform删除其中一台主机,如何删除?
  • 【2025软考高级架构师】——2024年05月份真题与解析
  • 工程师 - 小米汽车尾部主动扩散器
  • 交互式智能体面临问题:回声陷阱,RL滚动塑造因素,感知推理的奖励信号
  • Docker 使用与部署(超详细)
  • 365打卡第R6周: LSTM实现糖尿病探索与预测
  • n8n 快速入门2:构建自动化工作流
  • LangChain4j +DeepSeek大模型应用开发——9 优化硅谷小鹿
  • FreeSwitch Windows安装
  • docker部署Open WebUI下载速度慢解决方法
  • Redis事务
  • Ubuntu 安装 Docker
  • 二叉搜索树的最近祖先(递归遍历)
  • 【神经网络与深度学习】生成模型-单位高斯分布 Generating Models-unit Gaussian distribution
  • Git 远程操作
  • SpringMVC详解
  • R绘图|3分钟复现瑞士“苏黎世大学”Nature全球地图——基于R包ggplot2+sf等
  • 集成算法学习
  • Ubuntu22.04及以上版本buildroot SIGSTKSZ 报错问题
  • Rockermq的部署与使用(0-1)
  • 理解计算机系统_并发编程(1)_并发基础和基于进程的并发
  • 【leetcode100】最长递增子序列
  • PyTorch数据集与数据集加载
  • ICCV2023 | 视觉Transformer的Token-标签对齐
  • window-docker的容器使用宿主机音频设备
  • 深入探索 Java 区块链技术:从核心原理到企业级实践
  • nginx 核心功能 02
  • 【项目篇之统一硬盘操作】仿照RabbitMQ模拟实现消息队列