当前位置: 首页 > news >正文

Wan系列模型解析--详细架构图

文章目录

  • Wan T2V
  • Wan I2V

Wan T2V

在这里插入图片描述
注意点:

  • 只有自注意力中引用了rope,交叉注意力中并没有使用
  • 时间嵌入的转换和应用很特殊
    • 先和注意力模块中的调制块modulation按位相加,再拆分为6个的值,充当类似层归一化中缩放因子和偏移量的作用,因为Wan中的LayerNorm是将elementwise_affine设置为了False,即LayerNorm层内部是没有学习缩放因子和偏移量的
    • 最后在head中也与其中的调制块modulation按位相加,然后拆分为2个值,也是起缩放因子和偏移量的作用

Wan I2V

请添加图片描述
注意点:

  • 相较于T2V,I2V的输入多了两项,分别是clip从图片中提取的图片特征和图片、mask组成的视频输入y
    • clip提取的图片特征和t5提取的文本特征在长度上concat
    • 视频输入y是经过VAE编码的隐向量,会直接与初始化的时空尺寸相同的noise在特征维度concat,故是的I2V任务的Wan模型的输入维度为36,而T2V任务的Wan模型的输入维度为16
  • 包含图片信息和文本信息的context会在交叉注意力模块中会先拆开,然后隐向量单独与context_img、context_txt分别进行注意力计算,然后按位相加
http://www.xdnf.cn/news/1444879.html

相关文章:

  • 机器学习在Backtrader多因子模型中的应用
  • 美团龙猫利用expat库实现的保存xml指定范围数据到csv的C程序
  • TypeScript 泛型入门(新手友好、完整详解)
  • XSENS VISION NAVIGATOR助力智能城市自动化清洁机器人精确导航
  • TLSF内存算法适配HTOS
  • 【Unity UGUI Canvas(画布)(1)】
  • 【音视频】FMP4 介绍
  • 【正点原子K210连载】第三十一章 音频FFT实验 摘自【正点原子】DNK210使用指南-CanMV版指南
  • 【论文阅读】-《THE JPEG STILL PICTURE COMPRESSION STANDARD》
  • Android 接入deepseek
  • 关于ES中文分词器analysis-ik快速安装
  • k8s使用StatefulSet(有状态)部署单节点 MySQL方案(使用本地存储)
  • 【Bug】Nexus无法正常启动的五种解决方法
  • SuperMap GIS基础产品FAQ集锦(20250901)
  • Elasticsearch 数字字段随机取多值查询缓慢-原理分析与优化方案
  • 504 Gateway Timeout:服务器作为网关或代理时未能及时获得响应如何处理?
  • 揭秘设计模式:优雅地为复杂对象结构增添新功能-访问者模式
  • go语言面试之Goroutine详解
  • Linux使用-Linux系统管理
  • WPF里的几何图形Path绘制
  • 硬件驱动C51单片机——裸机(1)
  • 三、Scala方法与函数
  • 【面试场景题】1GB 大小HashMap在put时遇到扩容的过程
  • 安卓系统中IApplicationThread.aidl对应的是哪个类
  • 智慧交通管理信号灯通信4G工业路由器应用
  • 【小白笔记】移动硬盘为什么总比电脑更容易满?
  • 【LeetCode热题100道笔记】括号生成
  • 系统架构设计师备考第14天——业务处理系统(TPS)
  • WebAppClassLoader(Tomcat)和 LaunchedURLClassLoader(Spring Boot)类加载器详解
  • Llama v3 中的低秩自适应 (LoRA)