当前位置: 首页 > news >正文

常见的深度学习模块/操作中的维度约定(系统性总结)

🟩 1. 数据张量(特征图)维度

这是我们喂进网络或从网络中出来的“实际数据”。

类型维度格式举例说明
图像/特征图(B, C, H, W)(4, 3, 32, 32)PyTorch中最常用的数据布局(NCHW)
图像/特征图(TensorFlow风格)(B, H, W, C)(4, 32, 32, 3)TF/Keras默认的数据格式(NHWC)
序列数据(B, T, D)(4, 100, 512)B=batch, T=时间步数, D=特征维度(比如RNN、Transformer输入)


🟨 2. 卷积层的权重张量维度

这些是参数层的权重,不是输入输出数据!

类型维度格式举例含义
1D 卷积(out_channels, in_channels, kernel_size)(64, 32, 3)只沿时间轴卷积
2D 卷积(out_channels, in_channels, kH, kW)(64, 3, 3, 3)最常见
3D 卷积(out_channels, in_channels, D, H, W)(64, 3, 3, 3, 3)用于体积数据/视频等


🟦 3. 全连接层(Linear)维度

类型权重形状举例含义
FC 层权重(out_features, in_features)(5, 192)5个输出神经元,从192维输入接收信号
输入数据(batch_size, in_features)(4, 192)每个样本是1个向量
输出数据(batch_size, out_features)(4, 5)每个样本输出一个向量


🟧 4. 注意力机制中矩阵维度(尤其是 Transformer)

矩阵维度格式举例说明
Query / Key / Value(B, heads, T, d_k)(4, 8, 100, 64)多头注意力中每一头的特征维度
Attention 权重矩阵(B, heads, T_q, T_k)(4, 8, 100, 100)每个query对所有key的注意力分数
Output(B, T, d_model)(4, 100, 512)每个时间步最终的编码结果


🟥 5. RNN / LSTM / GRU 输入输出维度

类型维度举例说明
输入数据(seq_len, batch, input_size)(100, 4, 128)PyTorch默认格式
输出同输入(100, 4, hidden_size)每一步的输出
hidden / cell(num_layers × num_directions, batch, hidden_size)(2, 4, 128)LSTM/GRU的隐藏状态


🟪 6. BatchNorm 层的参数维度

类型参数形状说明
BatchNorm1d(C,)用于线性层或1D卷积输出的每个通道
BatchNorm2d(C,)对应于每个图像通道
BatchNorm3d(C,)视频/体数据的每个通道
http://www.xdnf.cn/news/1236871.html

相关文章:

  • 接口测试用例的编写
  • Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资决策辅助中的应用(379)
  • WSUS服务器数据库维护与性能优化技术白皮书
  • Nvidia Orin + RealSense D435i 与3D地图实现导航
  • ulimit参数使用详细总结
  • 第九章:了解特殊场景下的redis
  • 推荐系统学习笔记(八)其他召回通道
  • 机器人抓取流程介绍与实现——机器人抓取系统基础系列(七)
  • 《人形机器人的觉醒:技术革命与碳基未来》——类人关节设计:人工肌肉研发进展及一款超生物肌肉Hypermusclet的设计与制造
  • 最小半径覆盖问题【C++解法+二分+扫描线】
  • 从零开始学Express,理解服务器,路由于中间件
  • 批发订货系统:私有化部署与源代码支持越来越受市场追捧
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-56,(知识点:电源模块,DCDC电源,LDO电源,原理及其特点)
  • CVE-2025-5947 漏洞场景剖析
  • SpringBoot3.x入门到精通系列:2.5 整合 MyBatis 详解
  • 井盖识别数据集-2,700张图片 道路巡检 智能城市
  • [硬件电路-134]:模拟电路 - 运算放大器常见运算:两模拟信号相加、相减、单模拟信号的积分、微分...
  • 如新能源汽车渗透率模拟展开完整报告
  • 老电脑PE下无法读取硬盘的原因
  • node.js常用函数
  • 【代码详解】Triplane Meets Gaussian Splatting中triplane部分解析
  • Nvidia Orin DK 刷机CUDA TensorRT+硬盘扩容+ROS+Realsense+OpenCV+Ollama+Yolo11 一站式解决方案
  • Unity_数据持久化_XML序列化与反序列化
  • Dify中自定义工具类的类型
  • 服务器中切换盘的操作指南
  • 更换KR100门禁读头&主机
  • Redis+Lua的分布式限流器
  • 专网内网IP攻击应急与防御方案
  • 专网内网IP攻击防御:从应急响应到架构加固
  • 一个网页的加载过程详解