当前位置: 首页 > news >正文

论文阅读笔记——PixArt-α,PixArt-δ

PixArt-α

PixArt-α 论文
仅使用 28400 美元,28M 训练数据,训练时长为 SD 1.5 的 10.8%,只有 0.6B 参数量,达到接近商业应用的水准。
现有数据集存在的缺陷:图文匹配偏差、描述信息不完整、词汇多样性不足(长尾效应显著)、低质量数据。
为了实现低成本训练,华为采用了三阶段的训练策略:第一个阶段是学习像素依赖关系,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;然后是学习文本和图像的对齐,即学习文本作为条件下的图像生成,这里的一个关键是采用 LVLM (Large Vision-Language Model) 来给图像生成更详细的文本描述;最后一个阶段是高质量微调,即采用高分辨率和高美学图像对模型进行微调。
在这里插入图片描述
由于 Transformer 块中有 3 个 MLP,6 个参数,占总参数量的 27%,由于是训练一个文本引导的图像扩散模型,不需要类别标签,那么所有的 MLP 本质上在学习相似的时序模式。故改用单个 MLP 生成基准参数 S = f ( t ) S=f(t) S=f(t),为每个块引入可训练嵌入 E ( i ) E(i) E(i),每个块最终的参数为 S ( i ) = f ( t ) + E ( i ) S(i)=f(t)+E(i) S(i)=f(t)+E(i),同时为了保证与原来 3 个不同 MLP 的一致性,强制 t = 500 t=500 t=500 时,与原设计输出一致。
在第二阶段,文本-图像对齐时,之前部分文生图模型都是基于 LAION 数据集训练,但其噪声过大,图片对应的文本描述不准确。采用了 LLaVA 为图片生成更详细的描述,并采用包含丰富物体的 SAM 数据集,“ Describe this image and its style in a very detailed manner.”,认为质量比数据量更重要,采用 256×256 分辨率训练。
第三阶段,对高分辨率和高质量图像微调。采取和 SDXL 一样的渐进式训练策略:256×256->512×512->1024×1024

生成结果

在这里插入图片描述

PixArt-δ

PixArt-δ 论文
将 Latent Consistency Model (LCM) 集成到 PixArt-α,显著加快推理速度,生成 1024×1024 图像只需要 0.5s, 在 32GB V100 GPU 上仅用一天完成训练。使用 ControlNet 实现细粒度的文本控制。
对于 LCD 算法采取三模型:EMA、Teacher、Student,分别作为 ODE 求解器 Φ \Phi Φ f θ f_\theta fθ f θ − f_{\theta^-} fθ 的去噪器。通过固定 CFG 系数,简化 LCM 的动态引导策略,减少训练复杂度。(4 步采样加速)
在这里插入图片描述
在这里插入图片描述

生成结果

在这里插入图片描述

http://www.xdnf.cn/news/583039.html

相关文章:

  • 滚珠导轨:重构精密仪器传动架构,开启微纳世界
  • C++-继承
  • k8s容器入门(1)有状态服务 vs 无状态服务 核心区别
  • list(c++)
  • 排序和排列——蓝桥杯备考
  • 在Java的list.forEach(即 Stream API 的 forEach 方法)中,无法直接使用 continue 或 break 语句的解决办法
  • Lucide:一款精美的开源矢量图标库,前端图标新选择
  • 5G 核心网中的 NPN 功能详解
  • MongoDB大数据量的优化——mongoTemplate.stream()方法使用
  • 参与开发的注意事项
  • 每日算法-250522
  • CUDA加速的线性代数求解器库cuSOLVER
  • Spring AI 之提示词
  • 智能IoT未来与边缘生态共建 | 2025 高通边缘智能创新应用大赛第六场公开课来袭!
  • go语言基础
  • FastAPI在 Nginx 和 Docker 环境中的部署
  • 【Python socket模块深度解析】网络通信的核心工具
  • 高性能图表库SciChart WPF v8.8全新发布——提升渐变颜色映射高度
  • Mysql的主从同步
  • VR溺水安全:为生命筑牢数字化防线
  • 常见算法题目1 - 给定一个整数数组和一个目标值,找出数组中两个数之和等于目标值的数组下标组合
  • MySQL的相关操作
  • RTC技术
  • 第六部分:阶段项目 5:构建 NestJS RESTful API 服务器
  • STM32+rt-thread使用MQTT协议连接腾讯物联网平台
  • 旧物回收小程序:让闲置焕发光彩,为生活增添价值
  • spring boot启动报错:2002 - Can‘t connect to server on ‘192.168.10.212‘ (10061)
  • 响应式架构下的调试挑战:WebDebugX 如何帮助前端稳住场面?
  • 优化 CRM 架构,解锁企业竞争力密码
  • 解决:VMware 虚拟机 Ubuntu 系统共享文件夹无法访问问题