当前位置: 首页 > backend >正文

MajicTryOn(基于wanvideo的虚拟试穿项目)

网络结构

 Attention模块详解

        左边服装通过qwen2.5-VL-7B来生成详细的服装描述;线条提取器产生相应的线条map;garment和line map通过vae转换为潜在空间特征,然后分别经过patchfier,最后通过zero proj得到Garment Tokens和Line Tokens;右边是dit中的attention block模块(只包括cross attention部分),首先是Input Tokens 经过线性层和经过clip的图像tokens做交叉注意力计算,Text Tokens (文本通过umt5 文本编码器得到)经过线性层和经过线性层的Input Tokens 进行交叉注意力计算,后面将经过交叉注意力计算的文本特征和图像特征相加在一起;FGCA也同样是交叉注意力,只不过他们是将Line Tokens和Garment Tokens经过Linear得到的K,V分别堆叠在一起后再和Input Tokens进行叉注意力计算。最后将所有的经过注意力计算的特征相加在一起。需要注意的是一个轻量化Adapter模块:自适应服装特征分布 .

训练目标函数

 

 引入了一个mask区域loss计算,加强需要生成的衣服区域的生成保真度。

 数据和评估指标

 数据

VITON-HD

DressCode

ViViD

 评估指标

 SSIM, LPIPS, FID, and KID;前两个主要专注于两个图像像素的相似度,后两个主要专注于两个图像像素分布的相似度

 实现细节

预训练模型Wan2.1-Fun-14B-Control

第一阶段使用分辨率256-512的分辨率训练,第二阶段继续训练,在512-1024分辨率上

训练视频49帧,batch_size为2。第一阶段15k步数,第二阶段10K步数。

优化器 AdamW,学习率1e-5

机器配置8 NVIDIA H20 (96GB) GPUs

 

参考论文

https://arxiv.org/pdf/2505.21325

目前代码未开源

 

http://www.xdnf.cn/news/12578.html

相关文章:

  • 单图像生成3D动画模型TripoSR的部署过程
  • 局域网聊天室系统的设计与实现【源码+文档】
  • 储能方案设计:鹧鸪云模拟软件优势尽显
  • 文件对话框
  • daz3d + PBRSkin (MDL)+ SSS
  • 【国产8K 50P小型化广播级摄像机X2023央视总台春晚】多图预警
  • MySQL基础(五)事务、DCL权限控制、视图、同义词、索引及练习
  • 学习数字孪生,为你的职业发展开辟新赛道
  • 港股TRS交易系统开发:跨境资本的精密调度引擎
  • Beckhoff(倍福)PLC 顺控程序转换条件解读
  • MS8611运算放大器可pin对pin兼容AD8132
  • c++算法学习5——贪心算法
  • 新闻速递|Altair 与佐治亚理工学院签署合作备忘录,携手推动航空航天领域创新
  • SpringMVC执行流程
  • 前端关于position: sticky
  • 智能心理医疗助手开发实践:从技术架构到人文关怀——CangjieMagic情感医疗应用技术实践
  • Halcon提取车牌字符
  • 燃气经营从业人员考试知识点总结
  • 从以物换物到DeFi:交易的演变与Arbitrum的DeFi生态
  • Java开发过程中,trycatch异常处理的避坑梳理
  • k8s安装ingress-nginx
  • CC7利用链深度解析
  • Python | Windows11通过离线方式安装pyserial
  • 若依框架页面缓存查询条件后,切换页面想重新请求一下数据
  • 单芯片电流采用电路分享
  • SEO长尾关键词实战优化指南
  • 【2025最新】Miniconda3下载保姆级安装教程(附官方下载链接)
  • 计算机组成原理知识点汇总(六)总结:十六个核心问题
  • Day14
  • PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式