当前位置: 首页 > ds >正文

深度学习-卷积神经网络CNN-填充与步幅

【先导】:

  • 填充可以增加输出的高度和宽度。这常用来使输出与输入具有相同的高和宽。

  • 步幅可以减小输出的高和宽,例如输出的高和宽仅为输入的高和宽的(是一个大于的整数)。

  • 填充和步幅可用于有效地调整数据的维度。

1. 填充

填充是在输入数据的周围添加额外的像素值,通常是零像素,以调整输入数据的大小。

在卷积神经网络(CNN)中,填充的使用主要是为了控制卷积操作后的输出特征图的尺寸。

作用:

  • 保持空间信息 :在不使用填充的情况下,卷积操作会导致输出特征图的尺寸缩小,这可能会丢失一些边界像素的信息。通过添加填充,可以保持输入数据的空间分辨率,使边界像素也能被卷积核充分考虑,保留更多的空间信息。

  • 控制输出尺寸 :根据具体的需求,可以通过调整填充的大小来控制输出特征图的尺寸。例如,在一些需要保持输入和输出尺寸相同的场景中,可以使用填充来实现。

当卷积核大小 Kh 为偶数时,可采用非对称填充方式。以核大小为 4 为例,可通过在上侧填充 2 行、下侧填充 1 行来实现特定效果,当然,也可以选择上侧填充 1 行、下侧填充 2 行的方案。

当卷积核大小 Kh 为奇数时,则通常采用对称填充。比如核大小为 3,此时可上下各填充 1 行,左右各填充 1 列,使填充后的区域在卷积核周围均匀分布,从而保持输出特征图的对称性与稳定性。

2. 步幅

步幅是指卷积核在输入数据上每次移动的步长。它决定了卷积核在进行卷积操作时的移动速度。

作用:

  • 减少计算量和参数量 :较大的步幅会使卷积核在输入数据上移动得更快,从而减少输出特征图的尺寸,进而减少计算量和参数量。这对于处理大型数据集或构建深度网络时非常有用,可以提高计算效率并减轻模型的负担。

  • 控制感受野 :步幅的大小会影响卷积神经网络的感受野。较大的步幅会使感受野增大,模型能够捕获到更广泛的上下文信息,但可能会丢失一些局部细节信息。较小的步幅则会使感受野相对较小,但能够更好地保留局部特征。

常见步幅设置:

  • 步幅为 1 :这是最常用的步幅设置,卷积核每次移动一个像素。这种设置可以保持较高的空间分辨率,能够捕捉到输入数据中的细节信息。

  • 步幅大于 1 :例如步幅为 2,卷积核每次移动两个像素。这种设置可以快速减小输出特征图的尺寸,减少计算量,同时也能使模型具有更大的感受野。在实际应用中,可以根据具体的需求和数据特点来选择合适的步幅大小。

3. 填充与步幅的应用

在下面的例子中,我们创建一个高度和宽度为3的二维卷积层,并在所有侧边填充1个像素。

给定高度和宽度为8的输入,则输出的高度和宽度也是8。

默认情况下,填充为0,步幅为1。

import torch
from torch import nn# 为了方便起见,我们定义了一个计算卷积层的函数。
# 此函数初始化卷积层权重,并对输入和输出提高和缩减相应的维数
def comp_conv2d(conv2d, X):# 这里的(1,1)表示批量大小和通道数都是1X = X.reshape((1, 1) + X.shape)Y = conv2d(X)# 省略前两个维度:批量大小和通道return Y.reshape(Y.shape[2:])# 请注意,这里每边都填充了1行或1列,因此总共添加了2行或2列    
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape输出:torch.Size([8, 8])

卷积核的高度和宽度不同时,可以填充不同的高度和宽度,使输出和输入具有相同的高度和宽度。

在如下示例中,我们使用高度为5,宽度为3的卷积核,高度和宽度两边的填充分别为2和1。

conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape输出:torch.Size([8, 8])

下面,我们将高度和宽度的步幅设置为2,从而将输入的高度和宽度减半:

conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, X).shape
# 注意,这里的X是(8,8)输出:torch.Size([4, 4])

接下来,看一个稍微复杂的例子:

conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, X).shape输出:torch.Size([2, 2])

http://www.xdnf.cn/news/17210.html

相关文章:

  • 最新基于Python科研数据可视化实践技术
  • 【人工智能99问】什么是Post-Training,包含哪些内容?(19/99)
  • Next Terminal 实战:内网无密码安全登录
  • MCP进阶:工业协议与AI智能体的融合革命
  • Redis之Hash和List类型常用命令
  • VGMP(VRRP Group Management Protocol)VRRP组管理协议
  • Druid学习笔记 02、快速使用Druid的SqlParser解析
  • Solidity全局变量与安全实践指南
  • python中的字典
  • 雷达系统工程学习:自制极化合成孔径雷达无人机
  • bypass
  • SelectDB:新一代实时数仓的核心引擎与应用实战
  • 机器学习——基本算法
  • 笛卡尔坐标
  • Java 中 BigDecimal、Float、Double 的取整与保留小数处理方法详解
  • 简要探讨大型语言模型(LLMs)的发展历史
  • Android进程基础:Zygote
  • Linux 磁盘管理与分区配置
  • 【2025WACV-最佳论文】RayGauss:基于体积高斯的光线投射,用于逼真的小说视图合成
  • (JAVA)自建应用调用企业微信API接口,设置企业可信IP
  • 前端开发(HTML,CSS,VUE,JS)从入门到精通!第五天(jQuery函数库)
  • 使用1panel将http升级至https的过程
  • 板子指示灯状态设计
  • ESDocValues机制
  • Easysearch 集成阿里云与 Ollama Embedding API,构建端到端的语义搜索系统
  • python与C++
  • web第一次作业
  • Spring Cloud Gateway 实现登录校验:构建统一认证入口
  • Kali基础知识点【2】
  • Linux 网络深度剖析:传输层协议 UDP/TCP 原理详解