当前位置: 首页 > web >正文

增强自注意力机制CeAtt,增强局部细节!

1. 研究背景:

  • 研究问题:在恶劣天气条件下捕捉高质量图像是一个具有挑战性的任务,因为复杂的降质现象如颜色失真、模糊、噪声和低对比度会直接影响视觉质量,并对下游计算机视觉任务(如目标识别和场景理解)造成困难。

  • 研究难点:传统方法依赖手工制作的先验知识,但这些方法在处理复杂天气条件时效果有限。近年来,基于卷积神经网络(CNN)的方法被提出,但它们通常针对单一特定任务设计,可能无法很好地处理多天气恢复问题。

  • 相关工作:(1)恶劣天气下的图像恢复: 包括去雨、去雾、去雪和多天气恢复。传统模型方法关注探索适当的天气相关先验知识,而数据驱动方法则利用深度学习技术来解决这些问题。(2)图像恢复中的视觉Transformer: 近年来,视觉Transformer在低级图像恢复中取得了巨大成功。例如,IPT、SwinIR和Uformer等方法展示了Transformer在图像恢复中的潜力。

2. 本文贡献:

  • 提出了统一框架GridFormer:本文提出了一种新颖且统一的框架——GridFormer,专门用于在恶劣天气条件下进行图像恢复。GridFormer通过将残差密集变压器块(RDTBs)嵌入到网格结构中,从而能够高效捕捉分层的图像特征。网格结构有助于整合不同空间尺度的上下文信息,增强网络有效恢复图像的能力。

  • 残差密集变压器块(RDTB):GridFormer的关键单元是残差密集变压器块(RDTB),其中包含具有密集连接的紧凑增强型变压器层以及局部跳过连接的局部特征融合。紧凑增强型变压器层采用采样器和紧凑自注意力机制提高效率,并通过局部增强阶段加强局部细节。

三、创新方法

一、GridFormer整体框架:

图片

图2 GridFormer架构。该架构由网格头部、网格融合模块和网格尾部组成。金字塔降质图像X0、X1、X2首先输入网格头部以提取层级初始特征F0、F1、F2。这些初始特征通过网格融合模块进一步精炼,生成特征Fˆ0、Fˆ1、Fˆ2。最后,网格尾部重建出清晰图像Xˆ0、Xˆ1、Xˆ2。

图2所示,GridFormer包含三条从天气退化图像到复原图像的路径,每条路径在不同图像分辨率下执行复原任务。在GridFormer中,高分辨率路径持续与网络中的低分辨率路径进行动态交互以精准消除天气退化效应,而低分辨率路径凭借更大的感受野提供有价值的全局信息。每条路径由七个GridFormer层构成,不同路径之间通过下采样层、上采样层和加权注意力融合单元相互连接,共同构成GridFormer的列结构。得益于三行七列的网格结构,不同分辨率的信息得以高效共享。具体而言,GridFormer由三个核心组件构成:网格头部(GH)、网格融合模块(GFM)和网格尾部(GT)。

二、Compact-enhanced Attention(紧凑增强自注意力机制):

图片

图5:提出的紧凑增强型Transformer层示意图,由紧凑增强注意力层和前馈网络(FFN)组成。左图:紧凑增强注意力层包含三个步骤——特征采样、紧凑自注意力和局部增强。H、W和C分别表示特征图的高度、宽度和通道数。r为特征采样率。©和⊕符号分别表示拼接操作和逐元素求和操作。

Compact-enhanced Attention(紧凑增强自注意力机制)实现了高效的通道间建模,同时减少了计算复杂度并增强了局部细节的表达能力。

1. 输入特征图的分割:通过沿通道维度分割实现拆分操作,生成z1 ∈ R^{H/r × W/r × C/2}和z2 ∈ R^{H/r × W/r × C/2}。

2. 投影与多头自注意力:对z1和z2应用带有重塑操作的卷积层,将其分别映射为查询向量(q1, q2 ∈ R^{C/2 × HW/r^2})、键向量(k1, k2 ∈ R^{C/2 × HW/r^2})和值向量(v1, v2 ∈ R^{C/2 × HW/r^2})。这些投影操作将特征映射到适合多头自注意力计算的空间。为了增强特征交互,采用了“值交换”的策略,即 z_1 和 z_2 之间的值(v_1 和 v_2)进行交换,从而促进不同特征之间的信息融合。相比于传统的查询交换方法,这种值交换策略在实验中被证明对恢复性能更有益。

3. 多头自注意力结果融合:通过拼接两个多头自注意力模块的输出并调整其维度,得到最终结果Zˆ。所提出的紧凑型自注意力机制可表述为:

图片

4. 局部增强:每个条纹内的自注意力结果会进行拼接(concatenate)。在水平条纹中,所有条纹的自注意力输出拼接后形成该头的水平自注意力输出 H-Attention_n(X);同样,在垂直条纹中,所有条纹的自注意力输出拼接后形成该头的垂直自注意力输出 V-Attention_n(X)。

5. 水平与垂直自注意力合并:在紧凑自注意力机制的尾部增加了一个局部特征增强阶段。该阶段由解卷积操作(有时被称为"转置卷积")组成,其中包含用于局部特征传播的解卷积和用于局部融合的1×1卷积:

图片

其中Zout为最终输出。Conv1×1和Deconv分别表示1×1卷积层和反卷积层。

 

 论文题目:GridFormer: Residual Dense Transformer with Grid Structure for Image Restoration in Adverse Weather Conditions

中文题目:GridFormer:具有网格结构的残差密集Transformer用于恶劣天气条件下的图像复原论文链接:https://arxiv.org/pdf/2305.17863

http://www.xdnf.cn/news/13449.html

相关文章:

  • Scrapy爬虫框架:数据采集的瑞士军刀(附实战避坑指南)!!!
  • 如何开始HarmonyOS 5与Godot引擎融合开发?
  • 代码随想录训练营二十六天| 654.最大二叉树 617.合并二叉树 700.二叉搜索树的搜索 98.验证二叉搜索树
  • 如何将照片从Android传输到Mac?
  • IntelliJ IDEA 豆沙绿护眼色设置
  • defineAsyncComponent
  • STM32实战:智能家居控制面板设计方案
  • 2024年12月6级第二套第一篇
  • Android11三网共存
  • Nuxt3 中使用 pnpm 安装的 NuxtImg 使用会提示找不到图片
  • 加性同态加密的原理与函数解析
  • 【凌智视觉模块】rv1106 部署 ppocrv4 检测模型 rknn 推理
  • 在 Azure 机器学习中注册 MLflow 模型
  • Postman核心功能解析
  • React Native 跨平台开发:iOS 与安卓原生模块高效交互
  • AR互动协助:开启企业协作新纪元​
  • 【开源解析】:Python打造专业级USB安全弹出工具(附完整源码)
  • 计算机体系结构中的MPU是什么?
  • spring:使用注解@获取第三方bean实例
  • MATLAB-磁偶极子的空间磁场强度仿真
  • Linux:多线程---线程控制(线程创建线程等待线程终止)
  • DSPy Prompt自动生成最佳实践
  • 包含30个APP移动端网站UI的psd适用于餐厅咖啡店面包店快餐店
  • Kotlin基础语法四
  • Spring MVC扩展与SSM框架整合
  • 不同厂商保障UEFI/BIOS安全的技术与机制详解
  • 【机器学习-线性回归-7】中心极限定理在机器学习线性回归中的重要性
  • 【leetcode】125.验证回文串
  • Electron-vite【实战】MD 编辑器 -- 大纲区(含自动生成大纲,大纲缩进,折叠大纲,滚动同步高亮大纲,点击大纲滚动等)
  • 【读论文】Closed-loop Diffusion Control of Complex Physical Systems 闭环扩散控制系统