当前位置: 首页 > ai >正文

RandAR训练自己的数据集

论文题目:RandAR: Decoder-only Autoregressive Visual Generation in Random Orders(随机顺序下仅解码器的自回归视觉生成)

会议:CVPR2025

摘要:我们介绍了RandAR,一种仅解码器的视觉自回归(AR)模型,能够以任意令牌顺序生成图像。与之前依赖于预定义生成顺序的纯解码器AR模型不同,RandAR消除了这种归纳偏差,解锁了纯解码器生成的新功能。我们的基本设计通过在每个要预测的图像标记之前插入“位置指令标记”来实现随机顺序,表示下一个图像标记的空间位置。RandAR在随机排列的标记序列上进行训练,这是一项比固定顺序生成更具挑战性的任务,它的性能与传统的光栅顺序相当。更重要的是,从随机指令训练的只有解码器的变压器获得了新的能力。针对AR模型的效率瓶颈,RandAR在推理时采用KV-Cache并行解码,在不牺牲生成质量的情况下享受2.5 ×加速。此外,RandAR以零样本学习的方式支持绘制,绘制和分辨率外推。我们希望RandAR能激发解码器视觉生成模型的新方向,并拓宽它们在不同场景中的应用

源码链接:https://rand-ar.github.io/


引言

在人工智能图像生成领域,autoregressive(自回归)模型一直扮演着重要角色。受到GPT等语言模型成功的启发,研究者们将"下一个token预测

http://www.xdnf.cn/news/18570.html

相关文章:

  • ARINC 825板卡的应用
  • C++---双指针
  • Hyperledger Fabric官方中文教程-改进笔记(十五)-从通道中删除组织
  • Adobe CS6所有系列绿色免安装版,Photoshop 6 Adobe Illustrator CS6 等绿色版
  • 283. 移动零
  • 阿里云拉取dockers镜像
  • Wireshark USRP联合波形捕获(下)
  • 【Linux】Java线上问题,一分钟日志定位
  • 2024年CSP-S认证 CCF信息学奥赛C++ 中小学提高组 第一轮真题讲解 完善程序题解析
  • 面试题及解答:掌握Linux下常用性能分析工具
  • 使用Python实现DLT645-2007智能电表协议
  • 基于php的萌宠社区网站的设计与实现、基于php的宠物社区论坛的设计与实现
  • 【QT入门到晋级】进程间通信(IPC)-共享内存
  • 十六进制与内存地址,数值的差异为1,表示差1个字节,而不是数值差异2^8才表示差一个字节
  • 03-鸿蒙架构与编程模型
  • 《Linux 网络编程二:UDP 与 TCP 的差异、应用及问题应对》
  • Meta AI 剧变:汪滔挥刀重组,Llama 开源路线告急,超级智能梦碎还是重生?
  • 深度学习(深度神经网络)Pytorch框架
  • LoRA 微调
  • Trip Footprint旅行足迹App技术架构全解析
  • 迭代器模式与几个经典的C++实现
  • 机器学习案例——预测矿物类型(模型训练)
  • 【JVM内存结构系列】一、入门:先搞懂整体框架,再学细节——避免从一开始就混淆概念
  • Linux服务器利用Systemd配置定时任务
  • FLOPs、TFLOPs 与 TOPS:计算能力单位
  • 纠删码技术,更省钱的分布式系统的可靠性技术
  • JAVA核心基础篇-枚举
  • Claude Code 新手使用入门教程
  • 【Kubernetes知识点】资源配额与访问控制
  • Qt + windows+exe+msvc打包教程