当前位置: 首页 > java >正文

MMAD论文精读

摘要:在工业检测领域,mllms的能力还没被系统性研究。mmad是一个面向工业异常检测的全谱系mllm基准评测框架。我们定义了mllms在工业检测中涉及的七个关键子任务,并设计了一个新颖的数据构建流程,生成了包含 8,366 张工业图像 和 39,672 个问题 的 MMAD 数据集。借助mmad,我们评测了多种mllms,其中gpt-40平均准确率74.9%。但这表现远未满足工业应用实际需求。我们的分析显示,当前mllms在回答与工业异常与缺陷相关的问题仍有较大提升空间。我们进一步探索了两种无需训练的性能增强策略,以帮助模型在工业场景下提升表现,显示出未来研究的巨大潜力。

引言:以往用于工业异常检测的自动视觉检测ai研究,通常依赖于传统的判别式深度学习模型。这类模型只能完成特定的训练检测任务,无法像质检员一样提供详细的检测报告,此外,一旦产线变更或需求调整,传统方法往往需要重新训练或开发,代价高。mllms为改变现状提供了可能,

核心问题:当前mllms在扮演工业质检员方面表现如何?

mmad涵盖7个关键子任务和38类典型工业对象。实验结果说明模型在物体相关的问题上表现良好,但在处理缺陷相关问题时表现不佳。近期有一些研究开始探索这一问题:通过指令微调机制,有研究利用mllm评估iad案例,但这些工作大多只在少量定型示例上测试,缺乏定量评估结果。另一些研究专门训练mllms去理解传统iad模型的输出,但采用的是传统模型输出评价标准,并不反映mllms本身的能力。同时它们使用的数据和输出格式也不统一,难以与通用模型公平对比。因此我们提出了第一个专门用于iad的mllm定量评测基准mmad,当前公开iad数据集仅包含视觉标注和类别标签,缺乏丰富语义注释,难以直接用于mllm评估。为此我们设计了一个完整流程:

  • 1. 使用 GPT-4V 根据已有图像标注与人机对话生成丰富的语义注释

  • 2. 基于这些语义注释,生成问答对与选项,并由人工审核确保其准确性;

  • 3. 最终我们从 4 个公开数据集中收集了 38 类工业产品的 8,366 个样本,生成了 39,672 道多选题,涵盖 7 大子任务(如图 1 左所示)。

考虑到现有模型在处理异常和缺陷方面的不足,我们探索了两种无需训练的性能增强方法:

  • RAG(检索增强生成):通过文本扩展增强输入;

  • 专家代理(Expert Agent):通过视觉提示增强模型。

这些方法在一定程度上提升了性能,但仍受限于模型的基础能力。总体结论:当前的 MLLMs 仍无法胜任质检员的工作。它们还需进一步增强对 IAD 知识的理解能力,特别是跨图对比与细节分析的能力。

MMAD数据集

数据收集:我们设计的benchmark旨在覆盖多种IAD场景,我们从四个具有不同侧重点的IAD数据集进行采集和抽样,涵盖38个产品类别和244种缺陷类型。

问题定义:四个与异常相关的子任务和两个与物体相关的子任务:异常判别 缺陷分类 缺陷定位 缺陷描述 缺陷分析 物体分类 物体分析

数据生成:由于现有的开源IAD数据集缺乏语义标注,我们无法直接用于mllm评估,为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。该流程利用了gpt-4v的文本生成能力,结合规则程序、语言提示和人工筛选来确保生成内容的可靠性。在原图上用红色高亮显示真值掩码,让模型明确缺陷位置。检索最近的正常图像作为对比模板,使用结构相似性分数和Bhattacharyya距离的颜色直方图相似性度量。语言提示包括物体及缺陷类别标签和图像中缺陷位置的文字描述(采用九宫格描述)通过多种先验知识的组合,避免生成的描述仅仅是简单的照搬输入信息。

RAG:检索增强生成是一种结合了信息检索与文本生成的方法。用于提升语言模型的性能,尤其适用于需要外部知识的任务。本文提出了一个专门针对IAD任务的RAG方法,专家在大模型的辅助下,首先对现有的IAD数据集进行总结。对于每一个类别,他们总结了正常样本的特征,以及每种可能的异常的特征。把所有数据集中总结出来的领域知识,整合成一个可检索的数据库。在测试阶段,通过输入的查询图像去检索与该类别相关的知识,然后讲这些知识整合到文本提示(prompt)中。

------先写这些吧-------

http://www.xdnf.cn/news/10808.html

相关文章:

  • day20 奇异值SVD分解
  • 线程池和数据库连接池的区别
  • 3-10单元格行、列号获取(实例:表格选与维度转换)学习笔记
  • 163MusicLyrics(歌词下载工具) v7.0
  • MDP的observations部分
  • MS9288C+MS2131 1080P@60Hz USB3.0环出采集
  • 常见的七种排序算法 ——直接插入排序
  • 个人博客系统自动化测试报告
  • 最佳实践 | 璞华易研“PLM+AI智能研发平台”,助力汉旸科技实现高新材料“数据驱动研发”
  • 95. Java 数字和字符串 - 操作字符串的其他方法
  • OpenEMMA: 打破Waymo闭源,首个开源端到端多模态模型
  • 蓝绿部署解析
  • Python爬虫监控程序设计思路
  • 统信 UOS 服务器版离线部署 DeepSeek 攻略
  • 飞牛fnNAS存储模式RAID 5数据恢复
  • DSN(数字交换网络)由什么组成?
  • 基于Hutool的验证码功能完整技术文档
  • Nginx 响应头 Vary 的介绍与应用
  • YOLO学习笔记 | 一种用于海面目标检测的多尺度YOLO算法
  • 在前端使用JS生成音频文件并保存到本地
  • day18 leetcode-hot100-36(二叉树1)
  • tauri项目绕开plugin-shell直接调用可执行文件并携带任意参数
  • 【深度学习】大模型MCP工作流原理介绍、编写MCP
  • 谷歌地图2022高清卫星地图手机版v10.38.2 安卓版 - 前端工具导航
  • 小白的进阶之路系列之十一----人工智能从初步到精通pytorch综合运用的讲解第四部分
  • Franka科研新力量——基于异构预训练Transformer的扩展研究
  • 智能氮气柜的发展历程和前景展望
  • 从基础原理到Nginx实战应用
  • 架构设计的目标:高内聚、低耦合的本质
  • Pointer Network