当前位置: 首页 > ds >正文

ViT- an image is worth 16x16 words- transformers for image recognition at scale

 Google ICLR 2021

输入:图像

网络结构:

  1. 图像拆patch (bs, num_patch, dim) to_patch_embedding
    1. Rearrange 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1 = patch_height, p2 = patch_width
    2. norm
    3. Linear
    4. norm
  2. 拼接类别token (bs, num_patch+1, dim)
  3. 加位置embedding(矩阵点加)
  4. transformer网络
    1. 堆叠att和ffn
      1. att:
        1. norm- selfAtt- Linear- dropout
      2. ffn:norm- Linear- act- dropout- Linear- dropout
        1. norm:LayerNorm
        2. act:GELU
http://www.xdnf.cn/news/9110.html

相关文章:

  • YOLOv11改进 | Neck篇 | 双向特征金字塔网络BiFPN助力YOLOv11有效涨点
  • Python学习笔记--Django 表单处理
  • Django orm详解--组成部件
  • 限制 SSH 访问仅允许特定 IP 连接
  • 基于线性回归的短期预测
  • SAST国标分析︱灵脉AI深度兼容GB/T 34943/34944-2017源代码漏洞测试规范
  • LINUX526 回顾 配置ssh rsync定时备份(未完成)
  • OpenCV CUDA模块图像过滤------创建一个 Scharr 滤波器函数createScharrFilter()
  • 第12次04 :首页展示用户名
  • 数据仓库维度建模详细过程
  • 频繁报FTPResponse 421 received.Server closed connection
  • 1. 数据结构
  • 《软件工程》第 8 章 - 人机交互设计
  • QML设计登录界面
  • 基于FPGA的IIC多通道选择器(IIC Switch/Bridge)
  • Qt popup窗口半透明背景
  • mac for vscode集成的源代码管理 撤销和删除文件报错Permission denied
  • 【Macos】安装前端环境rust+node环境
  • 从界面设计到设备互联:基于Qt的ARM Linux自动化控制面板开发全解析
  • 【图像处理基石】什么是色彩模式?
  • 深度学习在建筑物提取中的应用综述
  • 【Qt开发】输入类控件
  • C语言初阶--结构体
  • 高性能排行榜系统架构实战
  • 解码词向量:让AI语言模型更透明
  • Leetcode 3563. Lexicographically Smallest String After Adjacent Removals
  • 基于Flask实现当当网书籍数据分析大屏
  • 清除谷歌浏览器中的“您的浏览器由所属组织/贵单位管理”
  • 《软件工程》第 2 章 -UML 与 RUP 统一过程
  • GitHub Page填写域名显示被占用