当前位置: 首页 > ds >正文

卷积操作原来分3种

一开始学习卷积的,书上文章都是空间维度的解说。比如10*10的图片,然后卷积核 3*3,步长1,不填充。

那么卷一遍,就是8*8的图片了。现在发现,怎么还有通道维度的。

卷积的三个核心维度

空间维度(高X宽):作用时提取局部空间特征;

通道维度(深度):融合不同通道的信息,卷积核的数量决定输出通道数。

批次维度:一次处理多个样本,由batch size决定。

所以卷积不仅仅时滑动窗口!

在深度学习中,卷积核其实时一个三维结构:

对于输入张量 H x W x C_in:

  • 卷积核大小是K x K x C_in
  • 每个卷积核会跨所有输入通道做加权求和,输出一个通道
  • 用N个这样的卷积核,得到C_out=N个输出通道

举例:

假设输入的是 24*24*256,你用:

  • 卷积核大小:3*3
  • 输入通道数:256
  • 输出通道数:128(用了128个卷积核)

那么每个卷积核是3*3*256,输出是24*24*128

PyTorch中卷积层:nn.Conv2d

nn.Conv2d(in_channels,out_channelds,kernel_size,stride=1,padding=0)

  • in_channels 输入通道,例如RGB图像是3
  • out_channelds 输出通道,例如要生成多少个特征图
  • kernel_size 卷积核
  • stride 步长
  • padding 填充

如果搞空间尺寸的,用kernel_size,stride,padding

如果搞通道数的,用in_channels,out_channelds

如果搞批次维度,x=torch.randn(32,3,24,24)。//32张RGB图像,pytorch中,输入张量第一位都是batch_size。这样,GPU可以并行处理。

【什么时候用通道维度变化?】

  • 特征的融合核压缩,就是特征太多了,要融合一下,少一点。例如
  • 特征扩展,还能把特征变多
  • 通道对齐,拼接操作,2个张量通道数一致
  • 注意力机制中通道变化,

总结,就是对所有输入通道的加权组合。控制模型的表达能力,计算效率和结构匹配。能够从深度方向上感知信息。

那么我们自己怎么设计多少个卷积核呢,其实我也不知道,但是有现成别人试验过的,例如ResNet-50

【什么时候用空间维度?】

  • 降采样
  • 保持空间尺寸
  • 上采样

总结,控制模型视野和抽象程度。这种其实也是大量试验出来的,用多大卷积核,多少步长。

http://www.xdnf.cn/news/20050.html

相关文章:

  • 2025年工科生转型必考的十大高含金量证书!
  • 腾讯云建站多少钱?2025年最新价格曝光,0基础也能做出专业网站?实测真假
  • flutter专栏--深入剖析你的第一个flutter应用
  • 从一次Crash分析Chromium/360浏览器的悬空指针检测机制:raw_ref与BackupRefPtr揭秘
  • 留学第一天,语言不通怎么办?同声传译工具推荐来了
  • 常用假设检验方法及 Python 实现
  • 亚马逊云代理商:配置安全组规则步骤
  • kafka Partition(分区)详解
  • nestjs 阿里云服务端签名
  • 深度学习篇---SGD+Momentum优化器
  • Photoshop - Photoshop 触控手势
  • 电表连网不用跑现场!耐达讯自动化RS485转Profinet网关 远程配置+技术支持,真能做到!
  • ASP.NET 实战:用 SqlCommand 打造一个安全的用户注册功能
  • SIC8833芯片智能充气泵设计方案
  • 原创未发表!POD-PINN本征正交分解结合物理信息神经网络多变量回归预测模型,Matlab实现
  • 第二家公司虽然用PowerBI ,可能更适合用以前的QuickBI
  • pip completion工具作用(生成命令行自动补全脚本)(与pip-bash-completion区别)
  • 东土智建 | 让塔吊更聪明的“四大绝技”工地安全效率双升级
  • EasyMeeting-注册登录
  • PDF-XChange Editor:全功能PDF阅读和编辑软件
  • 《华为基本法》——企业文化的精髓,你学习了几条?
  • 技术实战:从零开发一个淘宝商品实时数据采集接口
  • 《嵌入式硬件(一):裸机概念与80c51单片机基础》
  • Docker 运行 PolarDB-for-PostgreSQL 的命令,并已包含数据持久化配置
  • Scrapy框架实战:大规模爬取华为应用市场应用详情数据
  • 实现 TypeScript 内置工具类型(源码解析与实现)
  • C语言中的运算符
  • 自动化运维-ansible中的条件判断
  • 前端框架(Vue/React):界面更新的运行链路
  • mysy2使用