当前位置：首页 > ds >正文

ViT- an image is worth 16x16 words- transformers for image recognition at scale

ds 2025/8/29 4:40:23

Google ICLR 2021

输入：图像

网络结构：

图像拆patch (bs, num_patch, dim) to_patch_embedding
1. Rearrange 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1 = patch_height, p2 = patch_width
2. norm
3. Linear
4. norm
拼接类别token (bs, num_patch+1, dim)
加位置embedding（矩阵点加）
transformer网络
1. 堆叠att和ffn
  1. att：
    1. norm- selfAtt- Linear- dropout
  2. ffn：norm- Linear- act- dropout- Linear- dropout
    1. norm：LayerNorm
    2. act：GELU

http://www.xdnf.cn/news/9110.html

相关文章：

YOLOv11改进 | Neck篇 | 双向特征金字塔网络BiFPN助力YOLOv11有效涨点

Python学习笔记--Django 表单处理

Django orm详解--组成部件

限制 SSH 访问仅允许特定 IP 连接

基于线性回归的短期预测

SAST国标分析︱灵脉AI深度兼容GB/T 34943/34944-2017源代码漏洞测试规范

LINUX526 回顾配置ssh rsync定时备份（未完成）

OpenCV CUDA模块图像过滤------创建一个 Scharr 滤波器函数createScharrFilter()

第12次04 ：首页展示用户名

数据仓库维度建模详细过程

频繁报FTPResponse 421 received.Server closed connection

1. 数据结构

《软件工程》第 8 章 - 人机交互设计

QML设计登录界面

基于FPGA的IIC多通道选择器（IIC Switch/Bridge）

Qt popup窗口半透明背景

mac for vscode集成的源代码管理撤销和删除文件报错Permission denied

【Macos】安装前端环境rust+node环境

从界面设计到设备互联：基于Qt的ARM Linux自动化控制面板开发全解析

【图像处理基石】什么是色彩模式？

深度学习在建筑物提取中的应用综述

【Qt开发】输入类控件

C语言初阶--结构体

高性能排行榜系统架构实战

解码词向量：让AI语言模型更透明

Leetcode 3563. Lexicographically Smallest String After Adjacent Removals

基于Flask实现当当网书籍数据分析大屏

清除谷歌浏览器中的“您的浏览器由所属组织/贵单位管理”

《软件工程》第 2 章 -UML 与 RUP 统一过程

GitHub Page填写域名显示被占用