当前位置: 首页 > news >正文

CVPR自适应卷积的高效实现:小核大感受野提升复杂场景下图像重建精度

关注gongzhonghao【CVPR顶会精选

还在用“古板”的固定卷积?现在都流行自适应卷积了!它就像给模型装上了“自动调焦镜头”,遇到猫就细致勾毛发,遇到车就大范围看车身。CVPR上越来越多论文在玩这一招,不仅精度飙升,还能应对各种奇葩场景。医学图像?搞定。自动驾驶?没问题。视频理解?安排!一句话——自适应卷积就是卷积界的“变形金刚”,哪里需要就变哪里。今天小图给大家精选3篇CVPR有关自动驾驶方向的论文,供大家参考和借鉴。

论文一:A Universal Scale-Adaptive Deformable Transformer for Image Restoration across Diverse Artifacts

方法:

模型以分层Transformer为骨干,首先提取多尺度特征并估计一张隐式尺度图,将其作为条件信号驱动后续模块的采样位置与感受野自适应变化。随后,尺度增强可变形卷积利用尺度图调制偏移场与采样核,在受污染区域进行更密集与跨尺度的特征聚合,同时抑制干净区域的过度修复以避免伪影放大。最后,尺度自适应注意力在窗口化局部注意与稀疏全局注意间进行软融合,按区域难度自适应分配上下文长度与计算资源,实现纹理细节、长程结构和重复性伪影的协同恢复。

图片

创新点:

  • 在可变形卷积中显式引入尺度调制,依据对象/伪影大小自适应调整采样偏移与权重,精准覆盖不同尺度的伪影区域。

  • 通过可学习的尺度门控在局部与全局注意范围间动态切换,既保细节纹理又修复长程结构与周期性伪影。

  • 提出通用复原框架:单一模型统一处理多类结构化伪影,减少任务特定设计与调参负担,同时在参数与计算开销可控的前提下保持高性能。

图片

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/33696

图灵学术论文辅导

论文二:Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

方法:

作者首先离线构建覆盖常见概念与域偏移的语义LoRA库,并为每个LoRA建立轻量语义索引与元数据以支持快速检索和组合。随后,系统依据测试图像与目标开放词表的语义相似度检索出一小组候选LoRA,并为不同层级与空间位置估计自适应融合权重,实现对域偏移与类别差异的精准对齐。最后,将加权后的LoRA注入到冻结的分割主干中完成预测,从而在多域场景下稳健提升开放词表分割性能与泛化能力。

图片

创新点:

  • 将跨数据集类别训练得到的LoRA标准化存储为可检索的“语义模块”,用检索替代再训练,显著降低适应成本。

  • 基于图像-文本共同语义空间的相似度,动态挑选与当前图像和开放词表最相关的少量LoRA,抑制无关适配器引入的噪声。

  • 设计输入相关的软融合权重,在层/通道或空间维度上整合多LoRA,使适配既能全局对齐域偏移,又能局部细化边界,同时保持基座模型冻结稳定。

图片

论文链接:

https://arxiv.org/abs/2503.21780

图灵学术论文辅导

论文三:ShiftwiseConv: Small Convolutional Kernel with Large Kernel Effect

方法:

文章整体框架先对特征通道进行分组,每组特征以不同方向和步长进行空间移位操作,等价于在特征图上低成本扩展了信息的覆盖范围;移位后的特征通过轻量化的点卷积融合,增强通道间和空间上的表达与交互,避免信息丢失或冗余;整个Shiftwise卷积模块可直接集成进各类视觉主干网络,无需复杂调参或额外训练技巧,即可在分类、检测、分割等任务中获得显著性能提升。

图片

创新点:

  • Shiftwise卷积通过通道分组的空间移位操作,极大扩展了小卷积核的有效感受野,实现大核效果但几乎不增加参数。

  • 多方向、多尺度的移位策略让模型能灵活捕捉各种空间结构和细节,显著提升特征表达能力。

  • 该方法天然即插即用,可快速替换传统卷积模块,兼具高精度、低计算和稳定训练优势,适用广泛视觉场景。

图片

论文链接:

https://arxiv.org/abs/2401.12736

本文选自gongzhonghao【CVPR顶会精选】

http://www.xdnf.cn/news/1371259.html

相关文章:

  • vue新增用户密码框自动将当前用户的密码自动填充的问题
  • 高校党建系统设计与实现(代码+数据库+LW)
  • 嵌入式配置数据序列化:自定义 TLV vs nanopb
  • 深度学习篇---LeNet-5
  • 1Panel命令
  • 100种交易系统(6)均线MA识别信号与杂音
  • 深度学习----由手写数字识别案例来认识PyTorch框架
  • Python实现RANSAC进行点云直线、平面、曲面、圆、球体和圆柱拟合
  • Il2CppInspector 工具linux编译使用
  • 设计模式之命令模式
  • Vuex 和 Pinia 各自的优点
  • Linux之SELinux 概述、SSH 密钥登录、服务器初始化
  • 利用AI进行ArcGISPro进行数据库的相关处理?
  • Java数据结构速成【1】
  • 原则性 单一职责原则,第一性原则和ACID原则 : 安全/学习/节约
  • 从双重检查锁定的设计意图、锁的作用、第一次检查提升性能的原理三个角度,详细拆解单例模式的逻辑
  • Markdown学习笔记(4)
  • 矩阵微积分的链式法则(chain rule)
  • 在 Android Studio 中修改 APK 启动图标(2025826)
  • 从线到机:AI 与多模态交互如何重塑 B 端与 App 界面设计
  • 【RAGFlow代码详解-23】聊天系统架构
  • 【LeetCode 热题 100】75. 颜色分类——双指针
  • PWM控制实现呼吸灯
  • 家庭财务规划与投资系统的设计与实现(代码+数据库+LW)
  • Linux SSH 基于密钥交换的自动登录:原理与配置指南
  • (Arxiv-2024)VideoMaker:零样本定制化视频生成,依托于视频扩散模型的内在力量
  • 进程管理详解
  • 如何将视频从安卓设备传输到Mac?
  • 2025改版:npm 新淘宝镜像域名地址
  • 【数据结构】树和二叉树——二叉树