当前位置：首页 > news >正文

CVPR自适应卷积的高效实现：小核大感受野提升复杂场景下图像重建精度

news 2025/8/27 15:32:58

关注gongzhonghao【CVPR顶会精选】

还在用“古板”的固定卷积？现在都流行自适应卷积了！它就像给模型装上了“自动调焦镜头”，遇到猫就细致勾毛发，遇到车就大范围看车身。CVPR上越来越多论文在玩这一招，不仅精度飙升，还能应对各种奇葩场景。医学图像？搞定。自动驾驶？没问题。视频理解？安排！一句话——自适应卷积就是卷积界的“变形金刚”，哪里需要就变哪里。今天小图给大家精选3篇CVPR有关自动驾驶方向的论文，供大家参考和借鉴。

论文一：A Universal Scale-Adaptive Deformable Transformer for Image Restoration across Diverse Artifacts

方法：

模型以分层Transformer为骨干，首先提取多尺度特征并估计一张隐式尺度图，将其作为条件信号驱动后续模块的采样位置与感受野自适应变化。随后，尺度增强可变形卷积利用尺度图调制偏移场与采样核，在受污染区域进行更密集与跨尺度的特征聚合，同时抑制干净区域的过度修复以避免伪影放大。最后，尺度自适应注意力在窗口化局部注意与稀疏全局注意间进行软融合，按区域难度自适应分配上下文长度与计算资源，实现纹理细节、长程结构和重复性伪影的协同恢复。

创新点：

在可变形卷积中显式引入尺度调制，依据对象/伪影大小自适应调整采样偏移与权重，精准覆盖不同尺度的伪影区域。
通过可学习的尺度门控在局部与全局注意范围间动态切换，既保细节纹理又修复长程结构与周期性伪影。
提出通用复原框架：单一模型统一处理多类结构化伪影，减少任务特定设计与调参负担，同时在参数与计算开销可控的前提下保持高性能。

论文链接：

https://cvpr.thecvf.com/virtual/2025/poster/33696

图灵学术论文辅导

论文二：Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

方法：

作者首先离线构建覆盖常见概念与域偏移的语义LoRA库，并为每个LoRA建立轻量语义索引与元数据以支持快速检索和组合。随后，系统依据测试图像与目标开放词表的语义相似度检索出一小组候选LoRA，并为不同层级与空间位置估计自适应融合权重，实现对域偏移与类别差异的精准对齐。最后，将加权后的LoRA注入到冻结的分割主干中完成预测，从而在多域场景下稳健提升开放词表分割性能与泛化能力。

创新点：

将跨数据集类别训练得到的LoRA标准化存储为可检索的“语义模块”，用检索替代再训练，显著降低适应成本。
基于图像-文本共同语义空间的相似度，动态挑选与当前图像和开放词表最相关的少量LoRA，抑制无关适配器引入的噪声。
设计输入相关的软融合权重，在层/通道或空间维度上整合多LoRA，使适配既能全局对齐域偏移，又能局部细化边界，同时保持基座模型冻结稳定。

论文链接：

https://arxiv.org/abs/2503.21780

图灵学术论文辅导

论文三：ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

方法：

文章整体框架先对特征通道进行分组，每组特征以不同方向和步长进行空间移位操作，等价于在特征图上低成本扩展了信息的覆盖范围；移位后的特征通过轻量化的点卷积融合，增强通道间和空间上的表达与交互，避免信息丢失或冗余；整个Shiftwise卷积模块可直接集成进各类视觉主干网络，无需复杂调参或额外训练技巧，即可在分类、检测、分割等任务中获得显著性能提升。