当前位置: 首页 > ops >正文

HINet: Half Instance Normalization Network for Image Restoration论文阅读

HINet: Half Instance Normalization Network for Image Restoration

      • 1. 论文的研究目标与实际意义
      • 2. 创新方法:HIN Block与HINet
        • 2.1 HIN Block的设计原理
        • 2.2 HINet网络架构(对应论文图2)
        • 2.3 创新点与性能优势
        • 2.4 技术背景补充
      • 3. 实验设计与结果
        • 3.1 数据集与指标
        • 3.2 关键结果
        • 3.3 消融实验
      • 4. 未来研究方向
      • 5. 论文局限性
      • 6. 可复用创新点与学习建议

1. 论文的研究目标与实际意义

研究目标:解决低层次视觉任务(如图像去噪、去模糊、去雨)中传统标准化方法(如Batch Normalization, BN)的局限性,提出一种高效且高性能的归一化模块——Half Instance Normalization Block (HIN Block),并基于此构建多阶段网络HINet,以提升图像恢复任务的性能。

实际意义

  • 产业应用:手机摄影、安防监控、医疗影像等领域需高效处理模糊、噪声、雨雾等退化问题。HINet在减少70%以上计算量的同时超越SOTA,可部署于移动端或边缘设备。
  • 学术价值:首次将归一化技术直接应用于图像恢复任务并取得显著提升,挑战了“归一化对低层次任务无效”的传统认知。

2. 创新方法:HIN Block与HINet

2.1 HIN Block的设计原理

核心思想:通过通道分半策略(Channel Splitting Strategy)平衡特征鲁棒性与内容保留。传统归一化(如BN)在低层次视觉任务中因小批量统计不稳定而失效,而Instance Normalization (IN) 因其通道独立归一化特性(无需批量维度统计)更适用于此类任务。HIN Block创新性地仅对半数通道应用IN,避免全局归一化导致的内容丢失。

结构细节(对应论文图3a):

HIN Block结构
HIN Block

  • 输入特征经3×3卷积生成中间特征 F mid F_{\text{mid}} Fmid
  • 通道分半后,仅左半部分( F mid 1 F_{\text{mid}_1} Fmid1)进行IN操作。
  • 拼接后通过残差路径输出。
  1. 输入特征处理
    输入特征 F in ∈ R C in × H × W F_{\text{in}} \in \mathbb{R}^{C_{\text{in}} \times H \times W} FinRCin×H×W经卷积生成中间特征:
    F mid = Conv 3 × 3 ( F in ) ∈ R C out × H × W (Eq. in Sec 3.2) F_{\text{mid}} = \text{Conv}_{3\times3}(F_{\text{in}}) \quad \in \mathbb{R}^{C_{\text{out}} \times H \times W} \quad \text{(Eq. in Sec 3.2)} Fmid=Conv3×3(Fin)RCout×H×W(Eq. in Sec 3.2)

  2. 通道分半
    F mid F_{\text{mid}} Fmid沿通道维度均分:
    F mid 1 , F mid 2 = Split ( F mid ) , 其中 F mid 1 , F mid 2 ∈ R C out / 2 × H × W

http://www.xdnf.cn/news/13595.html

相关文章:

  • CardiacNet:从超声心动图视频中学习重建用于心脏病评估的异常
  • Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型时序预测对比
  • 视频自动生成字幕原理和自动生成字幕的应用实例
  • 芝麻酱工作创新点分享2——mysql的窗口函数使用
  • oracle表数据误删除恢复(闪回操作)
  • 目标检测我来惹2-SPPNet
  • map()函数
  • Postgresql日常使用
  • 展开说说Android之Glide详解_使用篇
  • 38道Linux命令高频题整理(附答案背诵版)
  • 时序数据库Apache IoTDB核心技术深度解析
  • 每日一博 - JWT 安全实战指南
  • C++11 nullptr:从入门到精通
  • Kafka入门:解锁核心组件,开启消息队列之旅
  • UE5 C++ Rider 编程指南 2: 如何使用Live Template编程实时模板?
  • Lavazza拉瓦萨再度牵手兰博基尼汽车 百年咖啡注入超跑速度
  • 技术赋能——AI社媒矩阵营销工具如何重构社媒矩阵底层架构
  • PDF文件合并、删除特定页面的工具分享
  • Gemini 2.5 Pro 和Claude 3.7 理综物理真题,考研数学真题实战对比,国内直接使用
  • Springboot实现Java程序和线程池的优雅关闭
  • 暴雨服务器成功交付长沙市第四医院
  • 大麦逆向so
  • 第 87 场周赛:比较含退格的字符串、数组中的最长山脉、一手顺子、访问所有节点的最短路径
  • Fiori笔记
  • 华为云Flexus+DeepSeek征文 | 弹性算力实战:Flexus X实例自动扩缩容策略优化
  • Vue开发学习笔记:动态渲染自定义封装的uview-plus的Toast组件
  • LeetCode--29.两数相除
  • 位移传感器远程监控软件说明
  • 【从零学习JVM|第八篇】深入探寻堆内存
  • BERT vs BART vs T5:预训练语言模型核心技术详解