RandAR训练自己的数据集
论文题目:RandAR: Decoder-only Autoregressive Visual Generation in Random Orders(随机顺序下仅解码器的自回归视觉生成)
会议:CVPR2025
摘要:我们介绍了RandAR,一种仅解码器的视觉自回归(AR)模型,能够以任意令牌顺序生成图像。与之前依赖于预定义生成顺序的纯解码器AR模型不同,RandAR消除了这种归纳偏差,解锁了纯解码器生成的新功能。我们的基本设计通过在每个要预测的图像标记之前插入“位置指令标记”来实现随机顺序,表示下一个图像标记的空间位置。RandAR在随机排列的标记序列上进行训练,这是一项比固定顺序生成更具挑战性的任务,它的性能与传统的光栅顺序相当。更重要的是,从随机指令训练的只有解码器的变压器获得了新的能力。针对AR模型的效率瓶颈,RandAR在推理时采用KV-Cache并行解码,在不牺牲生成质量的情况下享受2.5 ×加速。此外,RandAR以零样本学习的方式支持绘制,绘制和分辨率外推。我们希望RandAR能激发解码器视觉生成模型的新方向,并拓宽它们在不同场景中的应用
源码链接:https://rand-ar.github.io/
引言
在人工智能图像生成领域,autoregressive(自回归)模型一直扮演着重要角色。受到GPT等语言模型成功的启发,研究者们将"下一个token预测