当前位置: 首页 > web >正文

DiT中的 Adaptive Layer Normalization (adaLN) 讲解

DiT

论文:Scalable Diffusion Models with Transformers (ICCV 2023, Oral)

DiT的论文细节可以读原论文,推荐知乎:扩散模型解读 (一):DiT 详细解读,那么在 transformer 替换 Unet中,有个核心的改动,就是 adaLN

即以下的DiT Block with adaLN-Zero
在这里插入图片描述
首先,Dit 基本沿用了 transformer 的一般结构,即 transformer 就是 input -> layer_norm -> multi-head-att -> layer_norm -> feedforward 结构,但是由于 DiT 是用于扩散模型,所以会涉及到 timesteplabel 的输入,所以这块需要考虑如何把这两个信息进行融合到 transformer 里面来。

常见的几种信息融合的办法

简单总结一下几种常见的信息融合的办法:

  • concat 或者 add:fused = torch.cat([vector_a, vector_b], dim=1)
  • attention 加权或者 cross-att:一个序列作为Query,另一个作为Key/Value。
attention_weights = torch.softmax(torch.matmul(vector_a, vector_b.T), dim=-1)
fused = torch.matmul(attention_weights, vector_b)
  • 门控(Gated Fusion)
gate * transformed + (1 - gate) * a
  • 条件归一化(Conditional Normalization)

那么,DiT 这篇论文经过实验,验证了 adaLN 这种方式最好,具体 adaLN 是啥呢?我们来看一下

Layer Normalization 和 Adaptive Layer Normalization

参考自:https://zhuanlan.zhihu.com/p/698014972
在这里插入图片描述
在这里插入图片描述

More

值得注意的是,Dit 这个任务是根据分类lable重建图像,所以使用的 adaLN 机制,其实后续一些如果有 text context作为control信息时,为了效果更好可能还是要使用 cross-attention 的方式来提高效果。

更具体地,两者的差别可以大致总结如下:
在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/6771.html

相关文章:

  • 代码随想录算法训练营 Day48 单调栈Ⅱ 接雨水Like
  • 第三十三节:特征检测与描述-Shi-Tomasi 角点检测
  • 【记录】Windows|竖屏怎么调整分辨率使横竖双屏互动鼠标丝滑
  • 基于matlab的D2D 功率控制仿真
  • 【Boost搜索引擎】构建Boost站内搜索引擎实践
  • Tor推出Oniux新工具:为Linux应用提供网络流量匿名化
  • 将 Element UI 表格元素导出为 Excel 文件(处理了多级表头和固定列导出的问题)
  • DAY 28 类的定义
  • 安全生产调度管理系统的核心功能模块
  • 数学复习笔记 15
  • Ubuntu安装Nginx详细示例
  • mobile预览
  • 初识仓颉编程语言:高效、简洁与创新的编程选择
  • Unity3D 游戏编程内存优化技巧
  • 在MYSQL中导入cookbook.sql文件
  • Java线程池(Thread Pool)性能优化解析
  • 基于摩尔信使MThings的Modbus协议转换效率优化实践
  • 原生小程序+springboot+vue+协同过滤算法的音乐推荐系统(源码+论文+讲解+安装+部署+调试)
  • 报表控件stimulsoft教程:如何在报表和仪表板中创建热图
  • 兰亭妙微设计:为生命科技赋予人性化的交互语言
  • 相机Camera日志分析之九:高通相机Camx 基于预览1帧的ConfigureStreams二级日志分析详解
  • Python OOP核心技巧:如何正确选择实例方法、类方法和静态方法
  • Redis(三) - 使用Java操作Redis详解
  • 非国产算力DeepSeek 部署中的常见问题及解决方案
  • git 修改一个老commit,再把修改应用到所有后续的 commit
  • Go的单测gomock及覆盖率命令
  • 洛谷 P1375:小猫 ← 预处理模逆元 + 卡特兰数
  • nacos配置文件快速部署另一种方法
  • 第十天——贪心算法——深度总结
  • 提高表达能力