当前位置：首页 > ai >正文

RandAR训练自己的数据集

ai 2025/8/25 6:34:27

论文题目：RandAR: Decoder-only Autoregressive Visual Generation in Random Orders（随机顺序下仅解码器的自回归视觉生成）

会议：CVPR2025

摘要：我们介绍了RandAR，一种仅解码器的视觉自回归(AR)模型，能够以任意令牌顺序生成图像。与之前依赖于预定义生成顺序的纯解码器AR模型不同，RandAR消除了这种归纳偏差，解锁了纯解码器生成的新功能。我们的基本设计通过在每个要预测的图像标记之前插入“位置指令标记”来实现随机顺序，表示下一个图像标记的空间位置。RandAR在随机排列的标记序列上进行训练，这是一项比固定顺序生成更具挑战性的任务，它的性能与传统的光栅顺序相当。更重要的是，从随机指令训练的只有解码器的变压器获得了新的能力。针对AR模型的效率瓶颈，RandAR在推理时采用KV-Cache并行解码，在不牺牲生成质量的情况下享受2.5 ×加速。此外，RandAR以零样本学习的方式支持绘制，绘制和分辨率外推。我们希望RandAR能激发解码器视觉生成模型的新方向，并拓宽它们在不同场景中的应用

源码链接：https://rand-ar.github.io/

引言

在人工智能图像生成领域，autoregressive（自回归）模型一直扮演着重要角色。受到GPT等语言模型成功的启发，研究者们将"下一个token预测

http://www.xdnf.cn/news/18570.html

相关文章：

ARINC 825板卡的应用

C++---双指针

Hyperledger Fabric官方中文教程-改进笔记（十五）-从通道中删除组织

Adobe CS6所有系列绿色免安装版，Photoshop 6 Adobe Illustrator CS6 等绿色版

阿里云拉取dockers镜像

Wireshark USRP联合波形捕获（下）

【Linux】Java线上问题，一分钟日志定位

2024年CSP-S认证 CCF信息学奥赛C++ 中小学提高组第一轮真题讲解完善程序题解析

面试题及解答：掌握Linux下常用性能分析工具

使用Python实现DLT645-2007智能电表协议

基于php的萌宠社区网站的设计与实现、基于php的宠物社区论坛的设计与实现

【QT入门到晋级】进程间通信(IPC)-共享内存

十六进制与内存地址，数值的差异为1，表示差1个字节，而不是数值差异2^8才表示差一个字节

03-鸿蒙架构与编程模型

《Linux 网络编程二：UDP 与 TCP 的差异、应用及问题应对》

Meta AI 剧变：汪滔挥刀重组，Llama 开源路线告急，超级智能梦碎还是重生？

深度学习（深度神经网络）Pytorch框架

Trip Footprint旅行足迹App技术架构全解析

迭代器模式与几个经典的C++实现

机器学习案例——预测矿物类型（模型训练）

【JVM内存结构系列】一、入门：先搞懂整体框架，再学细节——避免从一开始就混淆概念

Linux服务器利用Systemd配置定时任务

FLOPs、TFLOPs 与 TOPS：计算能力单位

纠删码技术，更省钱的分布式系统的可靠性技术

JAVA核心基础篇-枚举

Claude Code 新手使用入门教程

【Kubernetes知识点】资源配额与访问控制

Qt + windows+exe+msvc打包教程