工业质检/缺陷检测领域最新顶会期刊论文收集整理-AAAI2025【持续更新中】
会议官方论文列表:https://ojs.aaai.org/index.php/AAAI/issue/view/624
其中,2025年是第三十九届AAAI人工智能大会,主要对第三十九届相关论文进行梳理,当前已初版28期(volume 39 no. 28)
会议简介
第三十九届美国人工智能协会(AAAI)人工智能大会于2025年2月25日至3月4日在宾夕法尼亚州费城举行。程序委员会主席为Julie Shah(美国麻省理工学院)和Zico Kolter(美国卡内基梅隆大学)。
本次会议的范围涵盖机器学习、自然语言处理、计算机视觉、数据挖掘、多智能体系统、知识表示、人机协作人工智能、搜索、规划、推理、机器人与感知,以及伦理道德。除了专注于上述任一领域的基础研究工作外,AAAI - 25还鼓励开展跨人工智能技术领域的研究(例如,机器学习与计算机视觉;计算机视觉与自然语言处理;或机器学习与规划),探索人工智能与相关研究领域之间的联系(例如,神经科学;认知科学),或者在重要应用领域(如医疗保健、可持续发展、交通和商业)中开发人工智能技术。
论文梳理
骨干网络
U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation Unet的优化
Code:https://github.com/CUHK-AIM-Group/U-KAN
U-Net 已成为图像分割和扩散概率模型等各种视觉应用的基石。虽然通过结合 transformer 或 MLP 引入了许多创新设计和改进,但网络仍然局限于线性建模模式以及不足的可解释性。为了应对这些挑战,我们的直觉受到了 Kolmogorov-Arnold 网络 (KAN) 在准确性和可解释性方面令人印象深刻的结果的启发,这些结果通过从 Kolmogorov-Anold 表示定理推导出的非线性可学习激活函数堆栈重塑了神经网络学习。具体来说,在本文中,我们探讨了 KANs 在改善视觉任务支柱方面尚未开发的潜力。我们通过在标记化的中间表示(称为 U-KAN)上集成专用的 KAN 层来研究、修改和重新设计已建立的 U-Net 管道。严格的医学图像分割基准测试验证了 UKAN 的优越性,即使计算成本更低,准确性也更高。我们进一步深入研究了 U-KAN 作为扩散模型中替代 U-Net 噪声预测器的潜力,证明了它在生成面向任务的模型架构方面的适用性。
分类
半监督分类
Towards Realistic Semi-supervised Medical Image Classification
现有的半监督学习 (SSL) 方法遵循理想化的封闭世界假设,忽略了现实医疗场景中存在的挑战,例如开放集分布和不平衡的类分布。尽管自然领域的一些方法试图解决开放集问题,但它们对于医学领域来说是不够的,因为医学领域存在诸如类不平衡和类间小病变差异等交织在一起的挑战。因此,本文提出了一种新的自我重新校准的语义训练框架,该框架通过巧妙地收集真实的未标记样本,为医学成像中的 SSL 量身定制。受到某些开放集样本与分布样本共享一些相似的疾病相关表征的观察结果的启发,我们首先提出了一种信息丰富的样本选择策略,该策略识别高价值样本作为增强,从而有效地丰富了已知类别的语义。此外,我们采用紧凑的语义聚类策略来解决上述新引入的 open-set 语义带来的语义混淆。此外,为了减轻开放集 SSL 中类不平衡的干扰,我们引入了一种具有相似性伪标签正则化和类别自定义正则化的偏差较小的双平衡分类器。对各种医学图像数据集的广泛实验表明,我们提出的方法优于最先进的封闭集和开放集 SSL 方法。
few-shot 分类
Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP
Code:https://github.com/lyymuwu/TIMO
对比语言-图像预训练 (CLIP) 已广泛用于视觉任务。值得注意的是,CLIP 在小样本学习 (FSL) 中表现出了有希望的性能。然而,现有的基于 CLIP 的免训练 FSL 方法(即不需要额外的训练)主要独立学习不同的模态,导致两个基本问题:1) 图像模态的严重异常匹配;2) 生成的文本提示质量参差不齐。为了解决这些问题,我们构建了一个相互指导机制,该机制引入了一个图像引导文本 (IGT) 组件,用于通过图像表示来纠正文本提示的不同质量,以及一个文本引导图像 (TGI) 组件,以通过文本表示来缓解图像模态的异常匹配。通过整合 IGT 和 TGI,我们采用文本-图像互导优化的观点,提出了 TIMO。广泛的实验表明,TIMO 的性能明显优于最先进的 (SOTA) 免训练方法。此外,通过探索相互指导的程度,我们提出了一种增强的变体 TIMO-S,它甚至超过了最佳培训要求方法0.33%,时间成本减少了约 ×100。
分割
脉冲神经网络用于分割
Spike2Former: Efficient Spiking Transformer for High-performance Image Segmentation
脉冲神经网络(SNNs)具有低功耗优势,但在图像分割任务中表现不佳。原因是将为分割任务设计的具有复杂架构的神经网络直接转换为脉冲版本会导致性能下降和不收敛。为应对这一挑战,我们首先确定架构设计中导致脉冲发放严重减少的模块,进行有针对性的改进,并提出Spike2Former架构。其次,我们提出归一化整数脉冲神经元,以解决具有复杂架构的SNNs的训练稳定性问题。我们在各种语义分割数据集上为SNNs创造了新的最先进水平,在ADE20K上平均交并比(mIoU)显著提高12.7%,效率提高5.0倍;在VOC2012上mIoU提高14.3%,效率提高5.2倍;在CityScapes上mIoU提高9.1%,效率提高6.6倍。
few-shot语义分割
⭐️Enhancing Generalized Few-Shot Semantic Segmentation via Effective Knowledge Transfer,
Code:https://github.com/xinyue1chen/GFSS-EKT
广义少数样本语义分割 (GFSS) 旨在使用足够的基类样本和少量新类样本来分割基类和新类的对象。代表性的 GFSS 方法通常采用两阶段训练方案,包括基类预训练,然后是新类微调,以分别学习基类和新类的分类器。然而,在此过程中,基类和新类之间存在分布差距。为了缩小这一差距,我们利用了从基础类到新类的有效知识转移。首先,设计了一种新的原型调制模块,通过利用基类和新类之间的相关性来调制新的类原型。其次,提出了一种新型分类器标定模块,根据基础分类器的权重分布标定新型分类器的权重分布;此外,现有的 GFSS 方法由于样本有限而缺乏新类的上下文信息,因此我们引入了一种上下文一致性学习方案,将上下文知识从基础类转移到新类。对 PASCAL-5i 和 COCO-20i 的广泛实验表明,我们的方法显着增强了 GFSS 设置中的技术水平。
SAM类
AoP-SAM: Automation of Prompts for Efficient Segmentation
Segment Anything Model (SAM) 是一个强大的图像分割基础模型,通过提示工程展示了强大的零镜头泛化。但是,对于实际应用程序来说,依赖手动提示是不切实际的,尤其是在快速提示配置和资源效率至关重要的情况下。在本文中,我们提出了 SAM 提示自动化 (AoP-SAM),这是一种学习在最佳位置自动生成基本提示的新方法。AoP-SAM 通过消除手动输入来提高 SAM 的效率和可用性,使其更适合实际任务。我们的方法采用轻量级但高效的 Prompt Predictor 模型,该模型可检测图像中的关键实体并确定放置提示候选人的最佳区域。此方法利用 SAM 的图像嵌入,保留其零镜头泛化功能,而无需微调。此外,我们还引入了一种测试时实例级自适应采样和过滤机制,该机制以粗到细的方式生成提示。这通过减少计算开销和最大限度地减少冗余掩码优化,显著提高了提示和掩码生成效率。对三个数据集的评估表明,AoP-SAM 显著提高了提示生成效率和掩码生成精度,使 SAM 在自动分割任务中更加有效。
Boosting Segment Anything Model Towards Open-Vocabulary Learning
最近的 Segment Anything Model (SAM) 已成为一种新的范式视觉基础模型,展示了有效的零样本泛化和灵活的提示。尽管 SAM 在各个领域找到了应用和适应,但其主要局限性在于无法掌握对象语义。在本文中,我们介绍了 Sambor,以将 SAM 与端到端框架中的开放词汇表对象检测器无缝集成。在保留 SAM 固有的所有卓越功能的同时,我们对其进行了改进,使其能够从人类输入(如类别名称或参考表达式)中检测任意对象。在 SAM 图像编码器的基础上,我们引入了一种新颖的 SideFormer 模块,旨在获取擅长感知对象的 SAM 特征,并注入全面的语义信息以进行识别。此外,我们还设计了一个 Open-set RPN,它利用 SAM 提案来帮助查找潜在对象。因此,Sambor 使开放词汇检测器能够同样专注于泛化定位和分类子任务。我们的方法在包括 COCO 和 LVIS 在内的基准测试中展示了卓越的零喷射性能,与以前的最先进方法相比具有很强的竞争力。我们希望这项工作成为一项有意义的努力,使 SAM 能够识别不同的对象类别,并在 Vision Foundation 模型的支持下推进开放词汇学习。
基于CLIP免训练
[Unveiling the Knowledge of CLIP for Training-Free Open-Vocabulary Semantic Segmentation](揭示 CLIP 的知识,用于免训练的开放词汇语义分割)
免训练开放词汇语义分割旨在探索冻结视觉语言模型 (VLM) 在分割任务中的潜力。最近的工作改革了 CLIP 的推理过程,并利用最后一层的特征来重建用于分割的密集表示,展示了有希望的性能。然而,最后一层往往优先考虑全局分量而不是局部表示,导致现有方法的稳健性和有效性欠佳。在本文中,我们提出了 CLIPSeg,这是一种新颖的免训练框架,它充分利用了 CLIP 中跨层的不同知识进行密集预测。我们的研究揭示了两个关键发现:首先,与最后一层相比,中间层的特征表现出较高的位置意识和特征连贯性,在此基础上,我们提出了产生语义感知注意力的连贯性增强残差注意力模块。其次,尽管没有直接与文本对齐,但深层捕获了有效的局部语义,以补充最后一层中的语义。利用这一洞察,我们引入了深度语义集成模块,以提升最终块中的补丁语义。使用各种 CLIP 模型在 9 个分割基准上进行的实验表明,CLIPSeg 始终以显着优势优于所有无训练方法,例如,具有 ViT-L 主干的 CLIP 的平均 mIoU 提高了 7.8%,并且在以有效的方式推广到新概念方面与基于学习的同行竞争。
其他分割
HSRDiff: A Hierarchical Self-Regulation Diffusion Model for Stochastic Semantic Segmentation
在医疗诊断和自动驾驶等安全关键领域,单张图像证据有时不足以反映视觉问题固有的模糊性。因此,可能需要多个与图像语义匹配的合理假设,以反映目标的实际分布并支持下游任务。然而,在高维输出空间和潜在的多模态分布下,平衡和提高分割预测的多样性和一致性仍然具有挑战性。本文提出了分层自调节扩散(HSRDiff),这是一个统一的框架,用于模拟整个标签上的联合概率分布。我们的模型在一种新颖的 “从分化到统一” 流程中,自调节预测标签和噪声这两种模式之间的平衡,并动态拟合最优路径,以对源于观测的随机不确定性进行建模。此外,我们通过利用分层多尺度条件先验,保留了图像中精细结构的高保真重建。我们在三种不同的语义场景中对HSRDiff进行了验证。实验结果表明,HSRDiff与对比方法相比具有显著的性能差距,表现更优。
Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation解决训练与测试时的域偏移问题
Code:https://github.com/Chen-Ziyang/GraTa
尽管近年来医学图像分割取得了重大进展,但来自不同中心的医学图像之间普遍存在的域偏移问题阻碍了预训练模型的有效部署。已经提出了许多测试时适应 (TTA) 方法来解决这个问题,方法是在推理过程中使用测试数据微调预训练模型。然而,由于次优的优化方向(由梯度决定)和固定的步长(取决于学习率),这些方法的优化往往不太令人满意。在本文中,我们提出了基于梯度对齐的测试时适应 (GraTa) 方法,以提高优化过程中的梯度方向和学习率。与传统的 TTA 方法不同,传统的 TTA 方法主要优化从自监督目标得出的伪梯度,我们的方法将辅助梯度与伪梯度相结合,以促进梯度对齐。这种梯度对齐使模型能够挖掘不同梯度之间的相似性,并校正梯度方向以近似于与当前分割任务相关的经验梯度。此外,我们根据伪梯度和辅助梯度之间的余弦相似性设计了一个动态学习率,从而能够根据不同的测试数据对预训练模型进行自适应微调。广泛的实验确立了所提出的梯度对齐和动态学习率的有效性,并证实了我们的 GraTa 方法在基准医学图像分割任务中优于其他最先进的 TTA 方法。
⭐️ConDSeg: A General Medical Image Segmentation Framework via Contrast-Driven Feature Enhancement 低对比度
Code:https://github.com/Mengqi-Lei/ConDSeg
医学图像分割在临床决策、治疗计划和疾病跟踪中发挥着重要作用。然而,它仍然面临两大挑战。一方面,医学图像中的前景和背景之间通常存在“软边界”,照明不佳和对比度低进一步降低了图像中前景和背景的可区分性。另一方面,共现现象在医学图像中很普遍,了解这些特征会误导模型的判断。为了应对这些挑战,我们提出了一个称为对比驱动医学图像分割 (ConDSeg) 的通用框架。首先,我们开发了一种称为一致性强化的对比训练策略。它旨在提高编码器在各种照明和对比度场景中的稳健性,使模型即使在恶劣环境中也能提取高质量的特征。其次,我们引入了一个语义信息解耦模块,它能够将编码器中的特征解耦到前景、背景和不确定性区域,逐渐获得在训练过程中减少不确定性的能力。然后,Contrast-Driven Feature Aggregation 模块将前景和背景特征进行对比,以指导多级特征融合和关键特征增强,进一步区分需要分割的实体。我们还提出了一个 Size-Aware Decoder 来解决解码器的尺度奇点。它可以准确地定位图像中不同大小的实体,从而避免对共现特征的错误学习。在三个场景中对五个数据集进行的广泛实验证明了我们方法最先进的性能,证明了其先进性和对各种医学图像分割场景的普遍适用性。
目标检测
脉冲神经网络用于提升目标检测
SpikingYOLOX: Improved YOLOX Object Detection with Fast Fourier Convolution and Spiking Neural Networks
近年来,随着脑科学的进步,脉冲神经网络(SNNs)受到了广泛关注。SNNs可以产生脉冲,模拟人类大脑中神经元的传输功能,从而在训练过程中通过事件驱动的特性显著降低计算成本。虽然深度SNNs在分类任务中表现出色,但在诸如目标检测等更复杂的任务中仍面临挑战。在本文中,我们提出了SpikingYOLOX,通过引入带符号的脉冲神经元和快速傅里叶卷积(FFC)对原始YOLOX的结构进行了扩展。所设计的三值带符号脉冲神经元可以产生三种脉冲,以在主干网络的深层获得更强健的特征。同时,我们将FFC与SNN模块相结合以提升目标检测性能,因为其全局感受野有利于目标检测任务。大量实验表明,所提出的SpikingYOLOX在其他基于SNN的目标检测方法中取得了最先进的性能。
长尾分布检测
Long-Tailed Out-of-Distribution Detection: Prioritizing Attention to Tail
Code:https://github.com/InaR-design/PATT
当前的分布外 (OOD) 检测方法通常假设平衡的分布内 (ID) 数据,而大多数实际数据都遵循长尾分布。以前的长尾 OOD 检测方法通常涉及通过减少头类的语义来平衡 ID 数据。但是,这种减少可能会严重影响 ID 数据的分类准确性。此任务的主要挑战在于严重缺乏 tail 类的特征,从而导致与 OOD 数据混淆。为了解决这个问题,我们引入了一种新的 Prioritizing Attention to Tail (PATT) 方法,使用增强而不是减少。我们的主要直觉包括使用 von Mises-Fisher (vMF) 分布的混合来对 ID 数据进行建模,并使用温度缩放模块来提高 ID 数据的置信度。这使我们能够生成无限的对比对,隐式增强 ID 类的语义,同时促进 ID 和 OOD 数据之间的差异。为了在不影响 ID 数据的分类性能的情况下进一步加强对 OOD 数据的检测,我们建议在推理阶段进行特征校准。通过从训练集中提取注意力权重,确定尾部类别的优先级并降低对 OOD 数据的置信度,我们提高了 OOD 检测能力。广泛的实验验证了我们的方法在各种基准上优于当前最先进的方法。
未知目标检测
UN-DETR: Promoting Objectness Learning via Joint Supervision for Unknown Object Detection
Code:https://github.com/ndwxhmzz/UN-DETR
未知对象检测 (UOD) 旨在识别不可见类别的对象,这与受封闭世界假设限制的传统检测范式不同。UOD 的一个关键组成部分是学习广义表示,即已知和未知类别的对象性,以与类无关的方式从背景中区分和定位对象。然而,以前的方法从定位或分类信息中分离地获得学习对象性的监督信号,导致 UOD 的性能不佳。为了解决这个问题,我们提出了一个基于 transformer 的 UOD 框架 UN-DETR。基于此,我们制作了实例存在分数 (IPS) 来表示对象存在的概率。为了实现信息互补性,IPS 采用了联合监督学习的策略,将来自位置和分类潜在空间的代表一般对象性的属性整合为监督信号。为了加强 IPS 学习,我们引入了一对多作业策略以纳入更多监督。然后,我们提出了 Unbiased Query Selection,为解码器提供高级初始查询向量。此外,我们提出了一种 IPS 引导的后处理策略来过滤冗余框并纠正已知和未知对象的分类预测。最后,我们以无监督的方式对整个 UN-DETR 进行预训练,以便先验获得客观性。我们的 UN-DETR 根据多个 UOD 和已知的检测基准进行了全面评估,证明了其有效性并实现了最先进的性能。
小目标
RemDet: Rethinking Efficient Model Design for UAV Object Detection 无人机-高效的小目标检测
无人机 (UAV) 图像中的对象检测已成为一个重点研究领域,这带来了两个重大挑战:i) 对象在大量图像中通常很小且很密集;ii) 计算资源限制使大多数模型不适合实时部署。当前的实时目标检测器并未针对 UAV 图像进行优化,并且为小目标检测设计的复杂方法通常缺乏实时功能。为了应对这些挑战,我们提出了一种新型检测器 RemDet (Reparameter efficient multiplication Detector)。我们的贡献如下:1) 重新思考现有探测器对小型和密集无人机图像的挑战,并提出信息损失作为高效模型的设计指南。2) 我们引入了 ChannelC2f 模块来增强小目标检测性能,证明了高维表示可以有效减轻信息损失。3) 我们设计的 GatedFFN 模块不仅提供强大的性能,而且提供低延迟,有效解决实时检测的挑战。我们的研究表明,通过使用乘法,GatedFFN 在高维表示方面比前馈网络更具成本效益。4) 我们提出了 CED 模块,它结合了 ViT 和 CNN 下采样的优势,有效减少了信息损失。它专门增强了小型和密集对象的上下文信息。对大型无人机数据集 Visdrone 和 UAVDT 的广泛实验验证了我们方法的实时效率和卓越性能。在具有挑战性的无人机数据集 VisDrone 上,我们的方法不仅提供了最先进的结果,将检测提高了 3.4% 以上,而且还在单个 4090 上实现了 110 FPS。
异常检测Anomaly Detection
Filter or Compensate: Towards Invariant Representation from Distribution Shift for Anomaly Detection针对分布外数据优化
Code:https://github.com/znchen666/FiCo
最近的异常检测 (AD) 方法在分布内 (ID) 数据方面取得了巨大成功。然而,真实世界的数据经常表现出分布偏移,导致传统 AD 方法的性能大幅下降。从这个角度来看,以往很少有工作探索具有分布偏移的 AD,并且基于逆蒸馏 (RD) 框架提出了分布不变正态学习。然而,我们观察到教师和学生网络之间的错位问题导致检测失败,因此提出了 FiCo、Filter 或 Compensate 来解决 AD 中的分布偏移问题。FiCo 首先通过分布特定补偿 (DiSCo) 模块补偿分布特定信息以减少教师和学生网络之间的错位,其次过滤所有异常信息以捕获分布不变正态性。分布不变滤波器 (DiIFi) 模块。对三种不同 AD 基准的广泛实验证明了 FiCo 的有效性,它优于所有现有的最先进的 (SOTA) 方法,与基于 RD 的方法相比,它甚至在 ID 场景中取得了更好的结果。
LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction
Code,暂未发布
逻辑图像理解涉及解释和推理图像视觉内容中的关系和一致性。此功能在工业检查等应用中至关重要,在这些应用中,逻辑异常检测对于保持高质量标准和最大限度地减少代价高昂的召回至关重要。以前的异常检测 (AD) 研究依赖于先验知识来设计算法,这通常需要大量的手动注释、强大的计算能力和大量数据进行训练。自回归、多模态视觉语言模型 (AVLM) 提供了一种很有前途的替代方案,因为它们在各个领域的视觉推理方面表现出色。尽管如此,它们在逻辑 AD 中的应用仍未得到探索。在这项工作中,我们研究了将 AVLM 用于逻辑 AD,并证明它们非常适合该任务。将 AVLM 与格式嵌入和逻辑推理器相结合,我们在公共基准测试 MVTec LOCO AD 上实现了 SOTA 性能,AUROC 为 86.0%,F1-max 为 83.7%,并对异常进行了解释。这明显优于现有的 SOTA 方法,在 AUROC 中提高了 18.1%,在 F1-max 分数中提高了 4.6%。
Unlocking the Potential of Reverse Distillation for Anomaly Detection
Code:https://github.com/hito2448/URD
知识蒸馏 (KD) 是一种很有前途的无监督异常检测 (AD) 方法。然而,学生网络的过度泛化通常会减少异常区域中教师和学生之间的关键表征差异,从而导致检测失败。为了解决这个问题,被广泛接受的逆蒸馏 (RD) 范式设计了不对称的教师和学生网络,使用编码器作为教师,使用解码器作为学生。然而,RD 的设计并不能确保教师编码器有效区分正常特征和异常特征,也不能确保学生解码器产生无异常特征。此外,缺少 skip 连接会导致特征重建过程中丢失精细细节。为了解决这些问题,我们提出了 RD with Expert,它引入了一种新的专家-教师-学生网络,用于同时蒸馏教师编码器和学生解码器。增加的专家网络增强了学生生成正常特征的能力,并优化了教师对正常和异常特征的区分,从而减少了漏检。此外,Guided Information Injection 旨在过滤特征并将其从教师传递给学生,从而改进细节重建并最大限度地减少误报。几个基准的实验证明,我们的方法在 RD 范式下优于现有的无监督 AD 方法,充分释放了 RD 的潜力。
图像生成
通用生成优化
(字节跳动) ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models 灵活生成不同分辨率
Code:https://github.com/bytedance/res-adapter
文本到图像模型和相应的个性化技术的最新进展使个人能够生成高质量和富有想象力的图像。但是,它们在生成分辨率超出其训练域的图像时通常会受到限制。为了克服这个限制,我们提出了分辨率适配器 \textbf{(ResAdapter)},这是一个专为扩散模型设计的域一致性适配器,用于生成具有不受限制的分辨率和纵横比的图像。与其他使用复杂的后处理作处理静态分辨率图像的多分辨率生成方法不同,ResAdapter 直接生成具有动态分辨率的图像。 特别是,在深入了解了纯分辨率先验之后,在通用数据集上训练的 ResAdapter 在保留其原始样式域的同时,生成了具有个性化扩散模型的无分辨率图像。综合实验表明,仅 0.5M 的 ResAdapter 可以处理任意扩散模型具有灵活分辨率的图像。更多扩展的实验表明,ResAdapter 与其他模块兼容,可在广泛的分辨率范围内生成图像,并且可以集成到其他多分辨率模型中,以高效生成更高分辨率的图像。
图像编辑
DiT4Edit: Diffusion Transformer for Image Editing 基于Diffusion的图像编辑
Code:https://github.com/fkyyyy/DiT4Edit
尽管基于 UNet 的图像编辑最近取得了进展,但仍然缺乏在高分辨率图像中编辑形状感知对象的方法。与 UNet 相比,Diffusion Transformers (DiT) 表现出卓越的能力,可以有效捕获补丁之间的长距离依赖关系,从而生成更高质量的图像。在本文中,我们提出了 DiT4Edit,这是第一个基于 Diffusion Transformer 的图像编辑框架。具体来说,DiT4Edit 使用 DPM-Solver 反演算法来获取倒置的潜在值,与基于 UNet 的框架中常用的 DDIM 反演算法相比,减少了步骤数。此外,我们还为 transformer 计算流设计了统一的注意力控制和补丁合并。这种集成使我们的框架能够更快地生成更高质量的编辑图像。我们的设计利用了 DiT 的优势,使其在图像编辑方面能够超越 UNet 结构,尤其是在高分辨率和任意尺寸的图像中。广泛的实验证明了 DiT4Edit 在各种编辑场景中的强大性能,凸显了扩散变压器在图像编辑中的潜力。
Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing
目前的方法通常利用反转、重建和编辑三个分支结构来处理一致的图像编辑任务。但是,这些方法无法控制已编辑对象的生成位置,并且存在背景保留问题。为了克服这些限制,我们提出了一种只有两个分支的免调音方法: inversion 和 editing 。此方法允许用户同时编辑对象的作并控制已编辑对象的生成位置。此外,它还实现了改进的背景保留。具体来说,我们将编辑过的物体信息传输到目标区域,并在特定时间步的反演过程中修复或保留其他区域的背景。在编辑阶段,我们使用 self-attention 中的图像特征,在反演中查询对应时间步长的 key 和值,以实现一致的图像编辑。令人印象深刻的图像编辑结果和定量评估证明了我们方法的有效性。
变化检测
主要用于遥感图像等,但可以思考是否可以用于缺陷的检测,因为缺陷相比正常图像也属于“变化”
EMPLACE: Self-Supervised Urban Scene Change Detection
城市变迁是一个持续的过程,它影响着人们对街区的认知以及街区内居民的生活。城市场景变化检测(USCD)领域旨在利用计算机视觉捕捉街道场景的变化,有助于提高人们对这些变化的认识,从而更好地了解城市及其居民。传统上,USCD领域使用基于小规模数据集的监督方法。这在将这些方法应用于新城市时存在局限性,因为它需要大量人力的标注过程,并且需要事先定义相关变化。在本文中,我们介绍了AC - 1M,这是目前最大的USCD数据集,包含超过110万张图像,同时还介绍了EMPLACE,这是一种自监督方法,使用我们的自适应三元组损失来训练视觉Transformer。我们展示了EMPLACE无论是作为线性微调的预训练方法还是在零样本设置下,都优于当前最先进的方法。最后,在对阿姆斯特丹的案例研究中,我们表明我们能够检测到整个城市的大小变化,并且EMPLACE发现的变化(取决于规模)与房价相关,而房价又反过来反映了不平等情况。
[Zero-Shot Scene Change Detection](Zero-Shot Scene Change Detection)
Code:https://github.com/kyusik-cho/ZSSCD
我们提出了一种新颖的、无需训练的场景变化检测方法。我们的方法利用跟踪模型,该模型通过识别常见对象和检测新对象或缺失对象,本质上在连续视频帧之间执行变化检测。具体来说,我们的方法通过输入参考和查询图像而不是连续帧来利用跟踪模型的变化检测效果。此外,我们关注变化检测中两个输入图像之间的内容差距和风格差距,并通过分别提出自适应内容阈值和样式桥接层来解决这两个问题。最后,我们将方法扩展到视频,利用丰富的时间信息来提高场景变化检测的性能。我们通过各种实验比较我们的方法和基线。虽然现有的基于训练的基线往往只专注于经过训练的领域,但我们的方法在各个领域显示出一致的性能,证明了我们方法的竞争力。
zero-shot
ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning
Code:https://github.com/Houwenjin/ZeroMamba
零样本学习 (ZSL) 旨在通过在语义信息的指导下将语义知识从可见的类转移到不可见的类来识别看不见的类。为此,现有工作通过利用卷积神经网络 (CNN) 或视觉转换器 (ViTs) 的全局视觉特征进行视觉语义交互,展示了卓越的性能。然而,由于 CNN 的感受野有限和 ViT 的二次复杂度,这些视觉支柱实现了次优的视觉语义交互。在本文中,受能够捕获远程依赖关系和建模复杂视觉动力学的视觉状态空间模型(即 Vision Mamba)的启发,我们提出了一种名为 ZeroMamba 的参数高效 ZSL 框架来推进 ZSL。我们的 ZeroMamba 包括三个关键组件:语义感知局部投影 (SLP)、全局表示学习 (GRL) 和语义融合 (SeF)。具体来说,SLP 集成了语义嵌入以将视觉特征映射到与局部语义相关的表示,而 GRL 鼓励模型学习全局语义表示。SeF 将这两种语义表示相结合,以增强语义特征的可区分性。我们将这些设计整合到 Vision Mamba 中,形成一个端到端的 ZSL 框架。因此,学习的语义表示更适合分类。通过对四个著名的 ZSL 基准测试进行广泛实验,ZeroMamba 表现出卓越的性能,在传统 ZSL (CZSL) 和广义 ZSL (GZSL) 设置下,其性能明显优于最先进的(即基于 CNN 和基于 ViT)的方法。
参数高效微调
Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
Code:https://github.com/jiaqihuang01/DETRIS
在计算机视觉领域,参数高效调整 (PET) 正越来越多地取代传统的预训练后进行全面微调的范式。PET 因其在大型基础模型中的有效性而受到特别青睐,因为它简化了迁移学习成本并优化了硬件利用率。然而,目前的 PET 方法主要是为单模态优化而设计的。虽然一些开创性的研究已经进行了初步探索,但它们仍然停留在对准编码器(例如 CLIP)的水平上,缺乏对未对准编码器的探索。这些方法在未对准的编码器上显示出次优的性能,因为它们在微调过程中无法有效地对齐多模态特征。在本文中,我们介绍了 DETRIS,这是一个参数高效的调整框架,旨在通过在每一层和所有前面的层之间建立密集的互连来增强低秩视觉特征传播,从而实现有效的跨模态特征交互和对未对准编码器的适应。我们还建议使用文本适配器来改进文本功能。我们简单而有效的方法大大超越了最先进的方法,在具有挑战性的基准上进行了 0.9% 到 1.8% 的主干参数更新。
第39期AAAI不同卷下的主题简介
第39期AAAI当前已初版28卷,每卷下包含不少于1个主题(track),大家可以根据自己的方向重点关注相关卷
卷号 | 英文原文主题 | 中文翻译主题 |
---|---|---|
Vol.1 | AAAI Technical Track on Application Domains | 应用领域技术 |
Vol.2 | AAAI Technical Track on Cognitive Modeling & Cognitive Systems AAAI Technical Track on Computer Vision I | 认知建模与认知系统技术 计算机视觉I技术 |
Vol.3 | AAAI Technical Track on Computer Vision II | 计算机视觉II技术 |
Vol.4 | AAAI Technical Track on Computer Vision III | 计算机视觉III技术 |
Vol.5 | AAAI Technical Track on Computer Vision IV | 计算机视觉IV技术 |
Vol.6 | AAAI Technical Track on Computer Vision V | 计算机视觉V技术 |
Vol.7 | AAAI Technical Track on Computer Vision VI | 计算机视觉VI技术 |
Vol.8 | AAAI Technical Track on Computer Vision VII | 计算机视觉VII技术 |
Vol.9 | AAAI Technical Track on Computer Vision VIII | 计算机视觉VIII技术 |
Vol.10 | AAAI Technical Track on Computer Vision IX | 计算机视觉IX技术 |
Vol.11 | AAAI Technical Track on Constraint Satisfaction and Optimization AAAI Technical Track on Data Mining & Knowledge Management I | 约束满足与优化技术 数据挖掘与知识管理I技术 |
Vol.12 | AAAI Technical Track on Data Mining & Knowledge Management II | 数据挖掘与知识管理II技术 |
Vol.13 | AAAI Technical Track on Game Theory and Economic Paradigms AAAI Technical Track on Humans and AI | 博弈论与经济范式技术 人类与人工智能技术 |
Vol.14 | AAAI Technical Track on Intelligent Robots AAAI Technical Track on Knowledge Representation and Reasoning | 智能机器人技术 知识表示与推理技术 |
Vol.15 | AAAI Technical Track on Machine Learning I | 机器学习I技术 |
Vol.16 | AAAI Technical Track on Machine Learning II | 机器学习II技术 |
Vol.17 | AAAI Technical Track on Machine Learning III | 机器学习III技术 |
Vol.18 | AAAI Technical Track on Machine Learning IV | 机器学习IV技术 |
Vol.19 | AAAI Technical Track on Machine Learning V | 机器学习V技术 |
Vol.20 | AAAI Technical Track on Machine Learning VI | 机器学习VI技术 |
Vol.21 | AAAI Technical Track on Machine Learning VII | 机器学习VII技术 |
Vol.22 | AAAI Technical Track on Multiagent Systems AAAI Technical Track on Natural Language Processing I | 多智能体系统技术 自然语言处理I技术 |
Vol.23 | AAAI Technical Track on Natural Language Processing II | 自然语言处理II技术 |
Vol.24 | AAAI Technical Track on Natural Language Processing III | 自然语言处理III技术 |
Vol.25 | AAAI Technical Track on Philosophy and Ethics of AI AAAI Technical Track on Planning, Routing, and Scheduling AAAI Technical Track on Reasoning under Uncertainty AAAI Technical Track on Search and Optimization | 人工智能哲学与伦理技术 规划、路径与调度技术 不确定性推理技术 搜索与优化技术 |
Vol.26 | AAAI Technical Track on AI Alignment | AAAI人工智能对齐技术 |
Vol.27 | AAAI Technical Track on AI for Social Impact Track | AAAI 人工智能促进社会影响技术 |
Vol.28 | AAAI Doctoral Consortium Track AAAI AAAI Student Abstract and Poster Program AAAI Undergraduate Consortium AAAI Demonstration Track AAAI | AAAI博士研讨会专场 AAAI学生摘要与海报项目 AAAI本科生联盟 AAAI演示赛道 |