当前位置：首页 > backend >正文

SKNet、空间注意力介绍

backend 2025/9/7 11:44:12

5月8日复盘

2. SKNet

Selective Kernel Networks

可选择的卷积核尺寸

目的：bSKNet中的神经元可以捕获不同尺度的目标物体，这验证了神经元根据输入自适应调整其感受野大小的能力。

SKNet论文地址：https://arxiv.org/pdf/1903.06586

2.0 基本认知

SK是对SE的改进版，可以动态调整感受野大小，分为Split-Fuse-Select共3个阶段，模型流程图如下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.1 Split阶段

在这里插入图片描述

在Split阶段会分出多个分支，每个分支实现不同大小的感受野，从而捕获不同的特征。
为提高效率，传统的5×5卷积被替换为带有3×3卷积核和膨胀大小为2的膨胀卷积。
具体公式如下：
$\widetilde{\mathcal{F}}:\mathbf{X}\to\widetilde{\mathbf{U}}\in\mathbb{R}^{h\times w\times C} \\ \widehat{\mathcal{F}}:\mathbf{X}\to\widehat{\mathbf{U}}\in\mathbb{R}^{h\times w\times C}$

2.2 Fuse阶段

在这里插入图片描述

该阶段会整合分支信息，具体步骤如下：

通过element-wise summation得到 $U$
$\mathbf{U}=\widetilde{\mathbf{U}}+\widehat{\mathbf{U}}$
通过global average pooling得到特征 $s$
$s_c=\mathcal{F}_{gp}(\mathbf{U}_c)=\frac1{H\times W}\sum_{i=1}^H\sum_{j=1}^W\mathbf{U}_c(i,j)$
就是一个平均池化操作。
通过FC全连接层得到 $\mathbf{z}\in\mathbb{R}^{d\times1}$
$\mathbf{z}=\mathcal{F}_{fc}(\mathbf{s})=\delta(\mathcal{B}(\mathbf{W}\mathbf{s}))$
其中 $\mathcal{B}$ 是batch normalization， $\delta$ 是ReLU， $\mathbf{W}\in\mathbb{R}^{d\times{C}}$ 。注意这里通过reduction ratio $r$ 和阈值 $L$ 两个参数控制 $z$ 的输出通道 $d$ ：
$d=\max(C/r,L)$
$L$ 默认值为32。
通过两个不同的FC层(即矩阵A、B)分别得到 $a$ 和 $b$ ，这里将通道从 $d$ 又映射回原始通道数 $C$ 。
对 $a, b$ 对应通道 $c$ 处的值进行 $so f t ma x$ 处理。
$a_{c}=\frac{e^{{\mathbf{A}_{c}\mathbf{z}}}}{e^{{\mathbf{A}_{c}\mathbf{z}}}+e^{{\mathbf{B}_{c}\mathbf{z}}}} \\ \\ b_{c}=\frac{e^{{\mathbf{B}_{c}\mathbf{z}}}}{e^{{\mathbf{A}_{c}\mathbf{z}}}+e^{{\mathbf{B}_{c}\mathbf{z}}}}$
在公式中， $A,B\in\mathbb{R}^{d\times C}$ ， $A_c z$ 和 $B_c z$ 分别代表不同（3×3、5×5）的卷积核经过全局池化（ $F_{gp}$ ）和全连接层（ $F_{fc}$ ）后得到的特征。 $a, b$ 分别表示 $\widetilde{\mathbf{U}} 和 \widehat{\mathbf{U}}$ 的注意力系数。

2.3 Select阶段

在这里插入图片描述

具体步骤如下:

$\widetilde{\mathbf{U}} 和 \widehat{\mathbf{U}}$ 分别与 $so f ma x$ 处理后的 $a, b$ 相乘，再相加，得到最终输出的 $V$ 和原始输入 $X$ 的维度一致。
$\mathbf{V}_c=a_c\cdot\widetilde{\mathbf{U}}_c+b_c\cdot\widehat{\mathbf{U}}_c \\ \quad a_c+b_c=1$

其中 $\mathbf{V} = [\mathbf{V}_1,\mathbf{V}_2,...,\mathbf{V}_c], \mathbf{V}_c \in \mathbb{R}^{H\times W}$

2.4 融入模型

ResNeXt加入SE和SK：

在这里插入图片描述

其中M表示SK中的分支数，M=2表示5×5和3×3两个分支。

2.5 注意力权重分析

| 在这里插入图片描述
|

图标注解：

通过中心裁剪和随后的调整大小，逐步将中心对象从1.0× 扩大到2.0×
SK_X_Y 中的 X 代表网络的不同层级（Stage），数字越大表示层越深。
Y 代表该层级中的第几个SK模块。
不同的SK模块在不同的层级负责提取不同尺度、不同语义的特征。
从第2层到第5层，特征从低级（如边缘、纹理）逐渐过渡到高级语义信息（如物体、场景等）。
channel index（32、64、96等）表示不同通道编号。
activation表示每个通道上的注意力权重值。这个值越高，表明网络对该通道上的特征越重视。

结论：

当目标物体增大时，对大核(5×5) 的关注权值增大，这表明神经元自适应地变大。
我们发现了一个关于自适应选择跨深度作用的令人惊讶的模式:目标对象越大，越会将更多的注意力分配给更大的对象。
随着网络加深，5x5卷积核的权重值也逐渐在变大，但在更高层时又不同。

在这里插入图片描述

对于使用ImageNet上所有验证样本的1000个类别中的每一个，在SKNet-50的SK单元上的平均注意差(内核的平均注意值5×5减去内核的平均注意值3×3)。在低级或中级SK单元(例如，SK 2.3, SK 34 4)上，如果目标对象变大(1.0x→1.5x)，则明显更强调5×5核。

结论：

在低级和中级阶段(例如，SK 23 3, SK 34 4)，通过选择性核机制的核。然而，在更高的层次(例如，SK 53 3)，所有的尺度信息都丢失了，这样的模式消失了。

这表明在网络的前期，可以根据对象大小的语义感知选择合适的核大小，从而有效地调整这些神经元的RF大小。然而，这种模式不存在于像SK 5.3这样的非常高层中，因为对于高层表示， “尺度”部分编码在特征向量中，与低层的情况相比，内核大小的影响较小。

2.6 性能对比

在这里插入图片描述

总之，作者想表达的就是自己模型性能最好！

三、空间注意力

空间注意力（Spatial Attention）是一种专注于特征图的空间维度的重要性分配的机制。它通过对特征图中的特定空间位置进行加权，从而突出对任务最有贡献的区域，抑制无关或冗余的区域，以提高模型的性能

1. Spatial Attention Module

这里介绍的空间注意力是 CBAM 中的组成模块
论文地址：【https://arxiv.org/pdf/1807.06521】
空间注意力模块通过卷积操作为特征图的每个空间位置生成权重，聚焦在图像中的关键区域，这是对通道注意力的补充

在这里插入图片描述

空间注意力模块计算公式如下：
- $\mathbf{F_{avg}^s}\in\mathbb{R}^{1\times H\times W}$ 表示通道中的平均池化特征
- $\mathbf{F_{max}^s}\in\mathbb{R}^{1\times H\times W}$ 表示通道中的最大池化特征
- $f^{7\times7}$ 表示滤波器大小为 7×7 的卷积操作
- $\sigma$ 表示 sigmoid 激活函数

$\begin{aligned} \mathbf{M_s}(\mathbf{F})& \begin{aligned}&=\sigma(f^{7\times7}([AvgPool(\mathbf{F});MaxPool(\mathbf{F})]))\end{aligned} \\ &=\sigma(f^{7\times7}([\mathbf{F_{avg}^s};\mathbf{F_{max}^s}])), \end{aligned}$

空间注意力模块布局如下：
- 输入特征：通道注意力模块的输出 $ F’$ 就是空间注意力模块的输入
- 池化操作：
  - 在 $F^{'}$ 的通道维度上进行全局的 MaxPool 和 AvgPool，生成 2 个二维特征图，维度为 $1 \times H \times W$
- 卷积层：
  - 把池化得到的特征图连接起来 $F_{concat}\in\mathbb{R}^{2 \times H\times W}$
  - 使用一个 $\times 7$ 的卷积核对拼接后的特征图进行卷积操作，经 Sigmoid 激活后，生成空间注意力图 $M_S$ ，维度为 $1 \times H \times W $
- 输出：
  - 空间注意力图 $M_S$ 与经过通道注意力增强后的特征图 $ F’$ 逐元素相乘，输出最终的增强特征图

1.1 实验结论

这个实验结论是 CBAM 论文中给出的，不仅仅是添加了空间注意力，还添加了通道注意力
可以看出都比不用(baseline)效果要好

在这里插入图片描述

1.2 构建

import torch
import torch.nn as nn# 空间注意力模块
class SpatialAttentionModule(nn.Module):def __init__(self):super(SpatialAttentionModule, self).__init__()self.conv = nn.Sequential(nn.Conv2d(in_channels=2, out_channels=1, kernel_size=7, stride=1, padding=3),nn.Sigmoid(),)def forward(self, x):max_pool = torch.max(x, dim=1, keepdim=True)[0]avg_pool = torch.mean(x, dim=1, keepdim=True)pool = torch.cat([max_pool, avg_pool], dim=1)out = self.conv(pool)return out

2. Learn to Pay Attention

论文地址：https://arxiv.org/pdf/1804.02391

源代码地址：https://github.com/SaoYan/LearnToPayAttention

空间注意力（Spatial Attention）主要用于CV，它在空间维度上选择性地关注输入特征图的不同位置，从而提升模型对关键区域的感知能力。其实现原理是基于不同像素位置，生成对应概率掩码，是比较低层的注意力机制。

在这里插入图片描述

2.0 基本认知

结合全局特征和局部特征获得注意力机制，使用加权的局部特征来识别目标。

在这里插入图片描述

**Local features：**局部特征

如头部、轮子、尾翼、发动机、机身标志或窗户等，包含丰富的细节，对于识别飞机的具体种类、型号等非常有帮助。
**Global features：**全局特征

如整体形状、轮廓、大小、相对背景中的位置等；对于识别是什么飞机很重要，如战斗机、客机还是直升机。
特征融合：

在生成注意力权重前会对输入的局部和全局特征进行融合。通过全局池化（Global Average Pooling）来获得全局上下文信息。
Attention Estimator：

对输入特征图进行多层卷积、池化、激活等操作，用来挖掘特征之间的关系，从而生成注意力权重图。权重图的每个位置对应特征图中的一个空间位置，表示该位置的重要性。
Att. Weighted Combination：

将生成的注意力图与原始特征图逐点相乘，得到加权后的特征图。

2.1 融入模型

基于VGG16网络的多层注意力融合：是为了适配不同大小的目标

在这里插入图片描述

通过多层注意力估计器，模型能够学会在不同的特征层次上关注有用的信息，提升分类性能。

2.1.1 流程概述

局部特征向量，s表示特征图层数： $\mathcal{L}^s=\{\boldsymbol{\ell}_1^s,\boldsymbol{\ell}_2^s,\cdots,\boldsymbol{\ell}_n^s\},s\in\{1,\cdots,S\}$
$L_n(L_1、L_2、L_3)$ 为VGG不同层级的局部特征向量，将FC-1, 512的输出 $G$ 视作全局特征，同时移除FC-2, 10层。
Attention Estimator 接收 $L_n$ 和 $G$ 作为输入，计算出注意力权重图(Attention map)，挖掘特征之间的关系。
Attention map作用于 $L_n$ 的每个channel得到 Weighted local feature $\mathscr{G}_{\mathrm{a}}^n$ 。
把各个层级下的 $\mathscr{G}_{\mathrm{a}}^n$ 进行连接操作后得到 $\mathscr{G}_{\mathrm{a}}:[\mathscr{G}_{\mathrm{a}}^1, \mathscr{G}_{\mathrm{a}}^2, \mathscr{G}_{\mathrm{a}}^3]$
最后将 $\mathscr{G}_{\mathrm{a}}$ 送入全连接层FC-2, 10进行分类。

2.1.2 $\mathscr{G}_{\mathrm{a}}$ 计算过程

计算过程及关联数学公式如下：
$\begin{aligned} &a_{i}^{s}=\frac{\operatorname{exp}(c_{i}^{s})}{\sum_{j=1}^{n}\operatorname{exp}(c_{j}^{s})}, i\in\{1\cdots n\}. \\ &\boldsymbol{g}_{a}^{s}=\sum_{i=1}^{n}a_{i}^{s}\cdot\boldsymbol{\ell}_{i}^{s} \\ &\boldsymbol{g}_{a} = [\boldsymbol{g}_{a}^{1},\boldsymbol{g}_{a}^{2},\cdots\boldsymbol{g}_{a}^{S}] \end{aligned}$
公式注解：