当前位置: 首页 > java >正文

论文阅读笔记——Autoregressive Image Generation without Vector Quantization

MAR 论文
基于 VQ(向量量化)的图像生成方法具有显著优势,它通过离散化压缩将原始图像映射到有限的 codebook 空间,从而缩小学习范围、降低建模难度,同时这种离散表示更易于与自回归(AG)生成方式结合,提升多模态任务(如文本到图像生成)的融合能力;然而,该方法也存在明显局限性,包括训练难度较高(容易导致codebook利用率不足,仅部分编码参与计算,严重制约模型表达能力)、解码重建质量欠佳等问题,其根本原因在于VQ本质上是一种有损压缩方式,不可避免会丢失部分信息。
在这里插入图片描述
本文的核心创新点在于彻底摒弃了传统VQ(向量量化)方法,直接进行自回归图像生成。作者提出关键观点:在自回归学习框架下,预测下一个 token x 时,离散化表征并非必要条件——若允许 x 保持连续性,则 VQ 机制自然失去存在价值。为实现这一目标,论文创新性地采用扩散模型(diffusion)的损失函数替代传统的交叉熵损失,从而将x建模为连续概率分布而非离散符号。这一转变不仅绕过了 VQ 带来的信息损失问题,更通过连续空间的建模提升了生成质量。
在这里插入图片描述
当前主流的大语言模型(LLM)普遍采用单向Causal Attention机制,这确实符合语言生成的序列特性(当前词只依赖历史信息)。然而,在图像生成领域,双向Attention可能更具优势——与语言中词与词的线性依赖不同,图像中的像素或patch往往与其周围区域存在空间上的相互影响。通过双向Attention建模这种全局上下文关系,理论上可以更自然地捕捉图像的空间结构特征,同时仍能保持自回归生成的特性(通过适当的掩码机制实现)。这种改进既保留了自回归的序列生成优势,又弥补了单向Attention对图像空间关系建模的不足。

传统的自回归图像生成通常采用固定的序列顺序(如从左到右、从上到下逐行生成图像块),如图(a)所示。然而,本文提出这种固定顺序的生成方式并非最优解。受掩码语言模型(MLM)的启发,论文创新性地提出 掩码自回归(Masked Autoregressive, MAR) 方法——如图(b)所示,模型可以随机选择生成任意位置的图像块,而无需遵循预设顺序。这种灵活生成方式带来两个关键优势:首先,它突破了传统自回归模型的顺序限制,使生成过程更符合图像的空间特性;其次,如图©所示,MAR支持同时预测多个被掩码的图像块,从而显著提升解码速度。这一设计在保持自回归建模优势的同时,实现了更高效的并行化生成。

实验

在这里插入图片描述
(1)在自回归中,用diff loss代替 CE loss,效果都是有提升,说明了diff loss的有效;
(2)在AR下(第一行),diff loss相比 CE loss提升的并不明显,当切换成论文提出的MAR形式,这个提升优势就愈加明显。
(3)在MAR_default(masked AR,就是上述©图形式)下,表现最好,而且即是是CE loss,也是相比之前的变体,也是又很明显的提升,说明masked AR在图像任务的有效性。

http://www.xdnf.cn/news/14788.html

相关文章:

  • uniapp打包微信小程序主包过大问题_uniapp 微信小程序时主包太大和vendor.js过大
  • 深度学习-逻辑回归
  • 深入理解 Redis Cluster:分片、主从与脑裂
  • Gemini CLI初体验
  • MySQL 8.0 OCP 1Z0-908 题目解析(17)
  • SciPy 安装使用教程
  • 数据结构:数组在编译器中的表示(Array Representation by Compiler)
  • NumPy-核心函数transpose()深度解析
  • MediaCrawler:强大的自媒体平台爬虫工具
  • 【python】OOP:Object-Oriented Programming
  • DHCP中继及动态分配
  • 全双工和半双工在以太网报文收发过程中的核心区别
  • 读书笔记:《DevOps实践指南》
  • GitHub 解码指南:用 AI 赋能,五步快速掌握任意开源项目
  • IOC容器讲解以及Spring依赖注入最佳实践全解析
  • LeetCode--40.组合总和II
  • Android App冷启动流程详解
  • 基于 Elasticsearch 实现地图点聚合
  • R语言初学者爬虫简单模板
  • 多种方法实现golang中实现对http的响应内容生成图片
  • Ubuntu20.04运DS-5
  • Lua 安装使用教程
  • docker-compose快速搭建redis集群
  • 容器基础5-Helm 与 K8s 的关系
  • 配置tcp的https协议证书
  • (第三篇)HMTL+CSS+JS-新手小白循序渐进案例入门
  • 【字节跳动】数据挖掘面试题0003:有一个文件,每一行是一个数字,如何用 MapReduce 进行排序和求每个用户每个页面停留时间
  • 《P4145 上帝造题的七分钟 2 / 花神游历各国》
  • Google Maps 安装使用教程
  • 客服机器人知识库怎么搭?智能客服机器人3种方案深度对比(含零售落地案例)