当前位置：首页 > ai >正文

【CVPR2025】计算机视觉|GIFNet：一个模型实现所有图像融合任务！还能增强画质？！

ai 2025/8/18 19:37:00

论文地址：https://arxiv.org/pdf/2502.19854
代码地址：https://github.com/AWCXV/GIFNet

关注UP CV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。
https://space.bilibili.com/473764881

在这里插入图片描述

摘要

本研究主要关注数字摄影融合中的低级视觉任务，并利用像素级监督实现有效的特征交互。这种新范式为无监督多模态融合提供了强有力的指导，无需依赖抽象语义，增强了任务共享特征学习，从而扩展了适用性。由于混合图像特征和增强的通用表示，提出的GIFNet支持多种融合任务，使用单个模型即可在已见和未见场景中实现高性能。独特的是，实验结果表明，本研究的框架还支持单模态增强，为实际应用提供了卓越的灵活性。

引言

本研究致力于解决当前图像融合领域存在的局限性，特别是高级视觉任务中任务交互机制的不足。 当前先进的图像融合方法大多依赖于高级视觉任务，例如目标检测或语义分割，来提供监督信号指导融合过程。然而，这种高级监督与底层图像融合问题存在一定脱节。由于高级任务引入了抽象的语义信息，其关注点主要在于物体类别、形状和场景布局等高级特征，而非图像的细粒度细节。这种语义差距导致在不同融合任务中需要训练特定模型，增加了计算资源消耗，并限制了模型的泛化能力。此外，高级任务的间接指导方式需要复杂的桥接模块或计算密集的预训练模型来弥合语义差距，这进一步增加了计算负担，且难以有效泛化到各种融合场景。

为了克服这些限制，本研究提出了一种新的低级任务交互范式，避免依赖高级语义，而是利用数字摄影融合中的低级视觉任务来提供监督信号。数字摄影融合（例如多焦点图像融合和多曝光图像融合）与多模态融合具有相似性，都强调细节保留和像素级特征对齐。因此，低级任务交互能够更好地增强任务共享的图像特征，避免与高级任务交互时固有的语义不匹配。

基于此，本研究提出了广义图像融合网络（GIFNet），一种支持低级任务交互的三分支架构，以实现高效融合。GIFNet 包含一个主任务分支、一个辅助任务分支和一个协调分支。主任务分支和辅助任务分支交替关注多模态和数字摄影特征，促进有效的跨任务交互。协调分支则专注于共享的重建任务，鼓励网络学习通用的特征表示，协调多模态和数字摄影分支的优化方向，防止任务特定适应性出现分歧。此外，本研究的模型还 incorporates 了一个跨融合门控机制，迭代地 refine 每个任务特定分支，整合多模态和数字摄影特征，以生成融合结果。

为了最小化多模态和数字摄影任务之间的数据域差距，本研究基于数据增强技术创建了一个基于RGB的联合数据集。通过使用来自相同场景的共享RGB模态，所提出的模型能够在统一的上下文中专注于跨不同任务的一致特征提取，从而协调训练过程。与侧重于单一类别融合的高级视觉任务方法不同，GIFNet 整合了多模态和数字摄影任务，使用单一模型即可实现跨各种融合场景的更广泛适用性（任务无关图像融合）。此外，低级任务交互增强了通用图像处理中至关重要的任务共享基础特征，而非放大特定任务的特征，使得 GIFNet 即使对于单模态输入也能充当多功能增强器。

论文创新点

✨ 本研究提出了一种新的低层任务交互的广义图像融合方法，解决了该领域很大程度上被忽视的一个方面。 ✨

通过引入共享的重建任务和基于RGB的联合数据集，本研究有效地减少了任务和域的差异，建立了一个协同训练框架。

📌 低层任务交互： 📌
- 本研究的核心创新点在于利用低层数字摄影融合任务（例如多聚焦图像融合）来指导无监督的多模态融合，而不是依赖于高层语义任务（如目标检测或语义分割）。
- 这种低层任务交互通过像素级监督提供了更直接、更有效的指导，避免了高层语义任务与低层图像融合之间存在的语义鸿沟。
🌉 基于RGB的联合数据集： 🌉
- 为了弥合多模态和数字摄影任务之间的数据域差距，本研究创建了一个基于RGB的联合数据集。
- 该数据集由对齐的RGB、红外、远焦和近焦图像组成，所有数据均来自同一场景，从而有效地减少了域差距，使模型能够在统一的上下文中关注跨不同任务的一致特征提取。
🌿 GIFNet三分支架构： 🌿
- 本研究提出的GIFNet模型采用了一种独特的三分支架构，包括主任务分支、辅助任务分支和协调分支。
- 主任务分支和辅助任务分支交替关注多模态和数字摄影特征，促进了有效的跨任务交互。
- 协调分支则专注于共享的重建任务，鼓励网络学习通用的特征表示，从而协调多模态和数字摄影分支的优化方向，防止任务特定的适应性出现分歧。
🌀 跨融合门控机制： 🌀
- 本研究还引入了一个跨融合门控机制，该机制迭代地 refine 每个任务特定的分支，整合多模态和数字摄影特征以提供融合结果。
- 这种机制使得模型能够自适应地控制不同任务特征的融合比例，从而获得更鲁棒的融合图像。
➕ 单模态图像增强能力： ➕
- 值得一提的是，本研究的GIFNet模型还具有单模态图像增强能力，扩展了图像融合模型的应用范围，使其超越了多模态领域。
- 通过将两个输入设置为同一图像，GIFNet可以专注于 refine 单个图像内的细节，实现图像增强。