当前位置: 首页 > ops >正文

深度学习模块缝合

目录

  • 在模块里面加
  • 在两个模块之间加+3维到4维
  • 在模块之前加+2维到4维
    举例
    在这里插入图片描述

想在vision_transformer里面加SENet

1.在model文件下新建一个python文件
2.把 模块文件里的整个SENet代码复制到新的python文件中
在这里插入图片描述
3.在开头导入 from model.SENet(新建文件名) import SELayer(新建文件中的类名)
4.在后面对SENet实例化
senet(自己定的命名)=SELayer( 类名)(channel=3)
//输入通道数 ,通道数填什么后面会说
注意:缝合模块,要注意通道数
在这里插入图片描述
5.找到要改的这个类 class VisionTransformer(nn.Module):
6.找到其中的 def forward(self, x):
7.输出之前的形状
print(f"之前前前的形状为{x.shape}“)# ([32,3,224,224])
8.运行 train代码输出之前的形状
在这里插入图片描述
9.把输出的形状大小做注释,写在print(f"之前前前的形状为{x.shape}”)的后面
10.在 class VisionTransformer(nn.Module): 初始化里面找到def init,在最后面加上
self.senet=senet
在这里插入图片描述
11.找到后面的 forward部分

x= self.senet(x)//对上x的通道数即可,由上面的【323224224】可知,通道数=3    
x=self.forward_features(x)//特征提取
  1. 返回文件开头,填写channel=3
senet(自己定的命名)=SELayer( 类名)(channel=3

13.保存代码,开始运行trian代码

加在Patch Embedding之后,进入 Transformer Blocks之前:(三维转四维)

1.先找到 class VisionTransformer(nn.Module):
中的 def forward_features(self, x):
x = self.pos_drop(x + self.pos_embed)
//pos_embed模块使用的地方,如果找不到问ai
在这里插入图片描述
2.找到Transformer Blocks
在这里插入图片描述
3.在两者中间加SENet,先打印x的形状

#1.打印x的形状
print(x.shape)# torch.Size([32,197,768])
#2.设置参数放对应的值
B, N,D = x.shape # 32, 197,768  
# 3.将class token移除以匹配网格形状
patches = x[:, 1:, :] #去掉 cls token,形状变为[B,196,D]
# 假设D=C,即嵌入维度作为通道数
#4.将每个patch嵌入变成适合SENet的形状[B,C,H,W],在这里我们假设H=W=14
patch_size = int(math.sqrt(N - 1)) # 196 -> sqrt(196) = 14,即切片大小
x = patches.view(B, patch_size, patch_size, D).permute(0, 3, 1, 2) # [B, 196, D] -> [B, C=D, H=14, W=14] c=d=768,  primute里面的0,表示第一个B不变位置,3对应原本的D-》D放第二个位置,原本1位和2位的patch_size, patch_size 都后移一位# 注意:这里的C=D=768-》channel=768#5.重新输入调整
x_senet = senet(x) # [B, C, H, W] -> [B, C, H, W]#6.将SENet的输出重新调整为原始的维度
x_senet = x_senet.permute(0, 2, 3, 1).view(B, patch_size * patch_size, D) # permute后的结果:[B, H,w,c] -> [B, 196, D]
# 7.重新添加 cls token
cls_token = self.cls_token.expand(B, -1, -1) # [B, 1, D]
x = torch.cat((cls_token, x_senet), dim=1) # [B, 1, D] + [B, 196, D] -> [B, 197, D]

4.在class VisionTransformer(nn.Module):的init里面对senet示例化

self.senet=senet

在这里插入图片描述
5.注意到channel=768,把开头import后面的channel改为768
在这里插入图片描述

加到MLP Head之前(二维转4维)

1.找到要改的这个类 class VisionTransformer(nn.Module): ,找到其中的 def forward(self, x):
找到MLPHead应用的地方
在这里插入图片描述
2.在前面 print(x.shape)->运行train代码
3.

if x.shape[o]!=32: #如果第一个不是,32passpass
else:x = x.view(32, 3, 16, 16) # [batch_size, channels, height, width] 把768化为3*16*16,编成4维的#注意这里的channel=3x = senet(x)# 32,3,16,16 进入SENetx= x.view(32,-1) # -1表示默认计算后面3个的维度,即3*16*16,-1也可以写768 
#结束
print(x.shape)

在这里插入图片描述
4.在代码前面加

from module.SENet import SELayer
senet = SELayer(channel=3) 

在这里插入图片描述

http://www.xdnf.cn/news/12796.html

相关文章:

  • 【redis】线程IO模型
  • 第16届蓝桥杯青少Stema11月 Scratch编程——初/中级组真题——行走的图形
  • GD图像处理与SESSiON
  • MySQL(63)如何进行数据库读写分离?
  • 进程与线程的区别
  • SQL Server从入门到项目实践(超值版)读书笔记 16
  • Linux多线程-进阶
  • 设计模式学习
  • AtCoder Beginner Contest 409
  • Continue 开源 AI 编程助手框架深度分析
  • C++17 和 C++20 中的新容器与工具:std::optional、std::variant 和 std::span
  • 学习python做表格6月8日补录
  • B站_Miachael_ee_通过GDB和OpenOCD对ESP32 进行JTAG Debug_笔记1
  • Python Day46
  • 【AI论文】MiMo-VL技术报告
  • 整数的字典序怎么算
  • 【FPGA开发】DDS信号发生器设计
  • 【题解-Acwing】1097. 池塘计数
  • OCCT基础类库介绍: Foundation Classes - Basics
  • 动手学深度学习pytorch(第一版)学习笔记汇总
  • 从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
  • 利用Pandas AI完成Excel大模型的结合实现自然语言问数
  • 第二十九章 数组
  • iptables实验
  • 2025年中国建银投资笔试测评春招校招社招笔试入职测评行测题型解读揭秘
  • 小番茄C盘清理:专业高效的电脑磁盘清理工具
  • FBRT-YOLO:面向实时航拍图像检测的轻量高效目标检测框架
  • 【QT】QT多语言切换
  • Java 线程同步详解
  • 前后端分离开发 和 前端工程化