当前位置: 首页 > ai >正文

Rethinking Coarse-to-Fine Approach in Single Image Deblurring论文阅读

Rethinking Coarse-to-Fine Approach in Single Image Deblurring

      • 1. 论文研究目标及实际意义
      • 2. 创新方法:MIMO-UNet及其技术细节
        • 2.1 整体架构设计思想
        • 2.2 多输入单编码器(MISE)
          • 2.2.1 设计动机
          • 2.2.2 浅层卷积模块(SCM)
          • 2.2.3 多尺度特征融合
        • 2.3 多输出单解码器(MOSD)
          • 2.3.1 设计动机
          • 2.3.2 图像重建机制
        • 2.4 非对称特征融合(AFF)
          • 2.4.1 设计动机
          • 2.4.2 融合机制
        • 2.5 损失函数设计
          • 2.5.1 多尺度内容损失(L1 Loss)
          • 2.5.2 多尺度频率重建损失(MSFR)
        • 2.6 与传统方法对比
        • 技术贡献总结
      • 3. 实验设计与结果
        • 3.1 数据集与训练
        • 3.2 定量结果(GoPro测试集)
        • 3.3 定性结果
        • 3.4 消融实验
      • 4. 未来研究方向
      • 5. 批判性分析
        • **局限性**:
        • **未验证问题**:
      • 6. 可复用创新点与学习建议
        • **核心可复用技术**:
        • **背景知识补充**:
        • **启发方向**:

1. 论文研究目标及实际意义

研究目标

“Conventional methods typically stack sub-networks with multi-scale input images… yielding inevitably high computational costs. Toward a fast and accurate deblurring network design, we revisit the coarse-to-fine strategy…”

本文旨在解决传统Coarse-to-Fine(粗到细)策略在单图像去模糊中的计算效率问题,同时保持高精度。核心矛盾在于:堆叠子网络(如DeepDeblur)虽有效,但计算开销大,难以部署在移动设备等资源受限场景。

实际意义

  • 产业需求:自动驾驶、安防监控等实时视觉系统需高效去模糊预处理(如消除运动模糊)。
  • 技术瓶颈:现有方法(如PSS-NSC、MT-RNN)在精度与速度间难以平衡(见表1)。
  • 创新定位:提出轻量级MIMO-UNet,实现PSNR提升32.68 dB的同时,推理速度快4倍于MPRNet(SOTA模型)。

2. 创新方法:MIMO-UNet及其技术细节

2.1 整体架构设计思想

“Instead of stacking multiple sub-networks, we present a single U-Net that handles multi-scale blur with low computational complexity.”

核心目标:通过单编码器-单解码器结构实现传统级联子网络(如DeepDeblur)的粗到细去模糊能力,同时显著降低计算开销。
关键创新

  • 多输入单编码器(Multi-Input Single Encoder, MISE):单编码器处理多尺度输入图像(原图、1/2、1/4分辨率)。
  • 多输出单解码器(Multi-Output Single Decoder, MOSD):单解码器输出多尺度去模糊结果(原图、1/2、1/4尺度)。
  • 非对称特征融合(Asymmetric Feature Fusion, AFF):动态融合编码器多尺度特征,提升信息利用率。

MIMO-UNet架构
图3:MIMO-UNet整体架构

2.2 多输入单编码器(MISE)
2.2.1 设计动机

传统方法(如DeepDeblur)为每个尺度分配独立子网络,导致参数冗余。MISE通过共享编码器主干处理多尺度输入,减少重复计算。

2.2.2 浅层卷积模块(SCM)
  • 输入:第 k k k 级下采样模糊图像 B k B_k Bk k = 1 , 2 , 3 k=1,2,3 k=1,2,3 对应原图、1/2、1/4尺度)。
  • 结构(见图4a):
    • 串联 3 × 3 3\times3 3×3 卷积 + 1 × 1 1\times1 1×1 卷积 → 特征提取
    • 残差连接:与输入 B k B_k Bk 拼接 → 1 × 1 1\times1 1×1 卷积融合
  • 公式(论文式无编号,见3.1节):
    SCM k out = Conv 1 × 1 ( Concat ( Conv 3 × 3 ( B k ) , B k ) ) \text{SCM}_{k}^{\text{out}} = \text{Conv}_{1\times1}\left(\text{Concat}\left(\text{Conv}_{3\times3}(B_k), B_k\right)\right) SCMkout=Conv1×1(Concat(Conv3×3(Bk),Bk))
2.2.3 多尺度特征融合
  • 融合操作
    • 上一级编码器输出 E B k − 1 out EB_{k-1}^{\text{out}} EBk1out 经步长2卷积下采样 → ( E B k − 1 out ) ↓ \left(EB_{k-1}^{\text{out}}\right)^{\downarrow} (EBk1out)
    • SCM k out \text{SCM}_{k}^{\text{out}} SCMkout 通过**特征注意力模块(FAM)**加权融合
  • FAM结构(见图4b):
    • 输入特征图逐元素相乘 → 3 × 3 3\times3 3×3 卷积 → 残差连接
      FAM ( X , Y ) = Conv 3 × 3 ( X ⊙ Y ) 
http://www.xdnf.cn/news/13889.html

相关文章:

  • 产品哲学:用户收益>操作成本,字节跳动成功的底层逻辑
  • 泰国数码电商系统定制|3C产品详情泰语化+售后管理,适配泰国数码零售
  • 【QT】QTableView自定义样式:仅显示行间隔、隐藏列间隔、表头样式、表格样式、单行选中等
  • python+django/flask成都奥科厨具厂产品在线销售系统
  • Vue中v-if条件渲染的常见陷阱:以金额显示为例
  • Android音视频多媒体开源框架基础大全
  • 基于OpenCV实现实时颜色检测
  • 嵌入式相关开源项目、库、资料------持续更新中
  • Linux 系统性能测试全指南:从磁盘 I/O 到网络带宽的实战方案
  • ArcGIS Pro 3.4 二次开发 - 工作流
  • 【60 Pandas+Pyecharts | 箱包订单数据分析可视化】
  • 数据结构——第二章 线性表之顺序表、单链表
  • NB-IoT-下行基本概率和时频资源分布
  • 城市排水管网液位流量监测系统解决方案
  • 1.14 express小项目 和 用到的 jwt详解
  • 【STM32的通用定时器CR1的CKD[1:0]: 时钟分频因子 (Clock division)】
  • 【PDF】常见纸张字体大小设置指南 / Common Paper Size Font Guidelines
  • 音视频之H.264的句法和语义
  • 基于 Java 的大数据分布式存储在视频会议系统海量数据存储与回放中的应用
  • Flutter Android打包和发布Build APK
  • PROFINET主站S7-1500通过协议网关集成欧姆龙NJ系列TCP/IP主站
  • HarmonyOS 5对React Native有哪些新特性?
  • 50种3D效果演示(OpenGL)
  • Elasticsearch索引wildcard查询
  • C++面试(10)---合并两个排序的链表
  • 历史交易数据涨跌分级
  • 《信号与系统》第 9 章 拉普拉斯变换
  • Chainlink VRF 深度解析与实战
  • 进阶四 带记忆功能的000-255 计数器
  • 基于Python的热门微博数据可视化分析-Flask+Vue