当前位置：首页 > ds >正文

论文阅读系列（一）Qwen-Image Technical Report

ds 2025/8/20 10:25:57

关于开展“人工智能论文阅读与分享系列”的情况说明

一、核心宗旨

本系列活动以“深研AI论文、提升科研能力、共享学习成果”为核心宗旨，聚焦人工智能领域的经典与前沿论文，通过系统性阅读、深度拆解与公开分享，实现个人科研素养的提升与知识价值的传递。

二、阅读范围与选择标准

1. 阅读范围与选择标准

核心领域：聚焦人工智能细分方向，包括但不限于大语言模型、计算机视觉、强化学习、多模态交互、AI伦理与安全等。
论文类型：
- 经典奠基论文（如《Attention Is All You Need》《ImageNet Classification with Deep Convolutional Neural Networks》等领域里程碑成果）；
- 顶刊顶会前沿论文（近3年NeurIPS、ICML、ICLR、CVPR、ACL等会议及《Nature》《Science》子刊的热点成果）；
- 具有实操价值的技术类论文（含开源项目、模型训练调优方法的论文）。
选择原则：兼顾“理论深度”与“可借鉴性”，优先选择对个人研究方向有直接启发、或包含可复现实验/代码的论文。

三、开展理由

定向提升科研能力
人工智能领域知识更新快、分支多，仅靠碎片化学习难以形成科研思维。通过“精读+拆解”论文，可系统训练“发现问题-分析方法-评估结果”的科研逻辑，逐步掌握学术写作规范（如创新点表述、实验论证方式）与研究设计思路（如如何选择对比方法、如何设计 ablation study），为后续开展原创研究奠定基础。
倒逼深度思考与知识内化
“分享”是检验理解的最佳方式。在准备分享内容时，需将论文的复杂逻辑转化为通俗易懂的表达，这一过程会倒逼自己发现知识盲区（如“某公式推导步骤不清晰”“创新点与传统方法的差异未吃透”），进而加深理解。同时，接收他人反馈（如“这个结论是否有前提条件？”）可拓宽思考维度，避免闭门造车。
构建个人知识体系与学术影响力
长期聚焦AI领域论文阅读与分享，既能按“技术演进脉络”（如从RNN到Transformer的发展）构建系统化知识网络，也能通过持续输出形成个人在细分领域的认知标签。例如，专注于“多模态大模型”的分享，可逐步成为该方向的“知识传播者”，为未来学术合作或职业发展积累资源。
促进开源精神与行业交流
人工智能的发展依赖开源与协作。分享论文解读与代码实践，既能为初学者提供入门参考（减少重复踩坑），也能通过同行交流获得新启发（如“有人提出用某方法改进原论文缺陷”），形成“输入-消化-输出-反馈”的正向循环。

四、总结

本系列活动的本质是“以读促研，以分享促深化”：通过精读论文定向提升科研硬实力，通过分享输出实现知识内化与价值传递。最终目标不仅是成为“AI论文的读者”，更希望能成为“AI领域的一名专家”和“技术创新的探索者”。

这一过程既是个人科研成长的“练兵场”，也是对实现“从学习者到研究者”的转变具有重要意义。

分割线

Qwen-Image：文图生成领域的创新先锋

摘要

近日，Qwen Team团队重磅推出Qwen系列在图像生成领域的全新力作——Qwen-Image。并公布了相关技术报告，里面详细阐述了这一基础模型在复杂文本渲染和精准图像编辑方面取得的突破性进展，为文图生成技术开拓了新境界。

在图像生成领域，长久以来存在一个棘手难题，即如何在生成的图像中精准渲染文本。像DALL-E 3、Midjourney这类主流图像生成模型，虽能产出充满创意与艺术感的图像，可一旦涉及文本渲染，无论是简单单词、复杂段落，还是中文这样的语素文字，都极易出错。Qwen-Image的诞生，正是为了攻克这两大核心挑战。

同时，Qwen-Image在图像编辑方面的表现同样可圈可点。它支持风格迁移、物体增减、姿态调整等多种编辑操作，普通用户利用它也能实现专业级的图像编辑效果。并且，通过独特的多任务训练范式，它在编辑过程中能够出色地保持图像的一致性，避免了编辑后图像风格突变、主体失真等问题。例如，当对一张人物图像进行“将人物的站姿由站立改为坐姿”的编辑操作时，Qwen-Image不仅能精准调整人物姿态，还能保证人物的面部特征、服饰纹理以及背景环境等都与原图保持高度一致，实现高保真度的图像编辑。

为实现这些突破，Qwen-Image团队精心设计了创新架构与训练策略。在数据处理上，构建了一套涵盖大规模数据收集、严格过滤、精准标注、高效合成以及合理平衡的综合数据管道，让模型得以接触海量优质的图文数据，为文本渲染学习筑牢根基。

在多个权威基准测试中，Qwen-Image成绩斐然。在用于通用图像生成的GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO等测试中，均展现出顶尖水平。尤其在针对文本渲染的LongText-Bench、ChineseWord和TextCraft测试里，Qwen-Image优势显著，在中文文本渲染方面更是大幅领先现有先进模型。

模型和代码原来地：
https://huggingface.co/Qwen/Qwen-Image
https://modelscope.cn/models/Qwen/Qwen-Image
https://github.com/QwenLM/Qwen-Image
在这里插入图片描述

研究背景

Qwen-Image的研究背景植根于图像生成领域的发展现状与未解决的核心挑战，具体可从以下两方面展开：

1. 图像生成技术的发展与成就

近年来，以文本到图像生成（T2I）和图像编辑（TI2I）为核心的图像生成模型已成为现代人工智能的基础组件，能够从文本提示中合成或修改视觉连贯、语义一致的内容。扩散架构（如Diffusion Models）的出现推动了该领域的显著进步，使其能够生成高分辨率图像并捕捉细粒度的语义细节，代表性成果包括DALL-E 3、Midjourney、FLUX等模型。这些模型在生成逼真图像、支持多样艺术风格等方面取得了突破，为数字内容创作、设计等领域提供了强大工具。

2. 现有技术的核心挑战

尽管进展显著，图像生成领域仍存在两个关键未解决的挑战，这也是Qwen-Image的研究出发点：

复杂文本渲染的对齐难题
现有模型（包括GPT Image 1、Seedream 3.0等先进商业模型）在处理涉及复杂文本的生成任务时存在局限：
- 难以准确渲染多行文本、非字母语言（如中文等表意文字）；
- 文本与视觉元素的局部插入和无缝融合能力较弱，常出现文本模糊、错漏或布局混乱。
图像编辑的一致性难题
在图像编辑任务中，现有模型难以同时满足“视觉一致性”和“语义连贯性”：
- 视觉一致性：仅修改目标区域，同时保留其他视觉细节（如修改头发颜色但不改变面部特征）；
- 语义连贯性：在结构变化中保持全局语义（如修改人物姿势但维持身份和场景一致性）。

这些挑战限制了图像生成模型在实际场景中的应用（如含复杂文本的设计、精准图像编辑等），因此需要通过新的技术方案突破现有瓶颈——Qwen-Image正是为解决这些问题而提出的图像生成基础模型。

Qwen-Image针对复杂文本渲染和精准图像编辑两大核心挑战，提出了一系列创新方法，具体解决方案如下：

一、解决复杂文本渲染挑战的核心方法

为突破文本渲染（尤其是中文等表意文字）的准确性和复杂性限制，Qwen-Image采用了综合数据工程与渐进式训练策略的组合方案：

构建全链路数据管道
设计涵盖大规模数据收集、严格过滤、精准标注、合成增强和类别平衡的完整数据流程，确保模型能接触到丰富且高质量的文本-图像对。其中，合成数据策略包含三种渲染方式：
- 纯文本渲染（在简单背景上生成文本段落，确保字符完整性）；
- 情境化合成（将文本嵌入真实场景，如纸张、木板等载体）；
- 结构化模板合成（基于PPT、UI等模板生成带复杂布局的文本）。
渐进式课程学习
采用从简单到复杂的训练逻辑：先训练非文本生成能力，再逐步引入文本渲染任务，从单字符、短句扩展到段落级文本和复杂布局，最终显著提升模型对多语言（尤其是中文）文本的原生渲染能力。

二、解决图像编辑一致性挑战的核心方法

为在编辑中同时保持语义连贯性和视觉保真度，Qwen-Image提出增强型多任务训练范式与双编码机制：

多任务融合训练
整合文本到图像（T2I）、文本-图像到图像（TI2I）、图像到图像（I2I）重建等任务，在共享潜在空间中对齐不同任务的表示，使模型在编辑时能同时理解文本指令和原始图像特征。
双编码机制
原始图像被分别输入Qwen2.5-VL（提取语义特征，捕捉场景理解和上下文）和VAE编码器（提取重建特征，保留低级别视觉细节），两种特征共同作为MMDiT的条件信号，实现语义一致性与视觉保真度的平衡。
模型架构
Qwen-Image采用了标准的双流MMDiT（Double-stream MMDiT）架构，并设计了一种新颖的多模态可扩展旋转位置编码（Multimodal Scalable RoPE, MSRoPE），以联合编码图像和文本模态的位置信息。
- MS - RoPE 位置编码：同时处理图像 patches 位置和文本语义位置，解决多模态位置对齐问题，比如文本说“树的顶部”，模型能精准定位图像中树的顶端区域渲染细节。
- 渐进式扩散（多层 MMDiT）：靠多层迭代去噪，逐步优化图像细节，解决“生成图像模糊、细节丢失”问题，让椰子树的纹理、天空的渐变更逼真。

三、Qwen - Image架构：整体协同逻辑

Qwen - Image采用 “双编码器输入 + 扩散Transformer主干” 的双流架构，核心是让**文本理解（Qwen2.5 VL）与图像表征（VAE）**深度融合，通过扩散过程逐步生成/编辑图像，实现“文本精准引导图像生成”的目标，流程可概括为：
文本指令 + 图像输入 → 双编码器编码 → MMDiT扩散建模 → 解码生成图像

四、核心组件功能详解

1. 条件编码器：Qwen2.5 VL（多模态大语言模型）

作用：理解文本指令，提取语义特征。不管是“生成三棵椰子树的场景”这类文本，还是图像编辑时的“把椰子树改为棕榈树”指令，都靠它解析成模型能理解的特征。
输入：System prompt（系统提示，比如默认的图像风格、规则） + User prompt（用户指令，比如具体的图像描述）。
输出：文本语义特征向量，作为后续扩散过程的“文本引导信号”，让图像生成/编辑紧扣用户需求。

2. 图像分词器：VAE Encoder（变分自编码器）

作用：压缩图像，把高清图像转成紧凑的“潜在表征”（类似图像的“语义二维码”），降低计算量；同时，为扩散过程提供初始图像特征。
输入：
- 训练/编辑时：原始图像（比如要编辑的椰子树图片） + 噪声（扩散过程需要引入噪声模拟生成）；
- 生成时：纯噪声（从无到有生成图像，靠噪声逐步去噪）。
关键操作：
- Patchify：把图像切成小 patches（类似拼图碎片），方便Transformer处理；
- 编码后输出：图像潜在特征，和文本特征一起喂给 MMDiT，让文本和图像特征“并肩作战”。

3. 主干扩散模型：MMDiT Block（多模态扩散 Transformer）

作用：核心扩散过程，逐步学习“噪声图像 → 目标图像”的映射，同时融合文本特征引导生成。可以理解为“带着文本指令，一步步把噪声雕成目标图像”。
内部流程：
- 输入：文本特征（来自Qwen2.5 VL） + 图像潜在特征（来自VAE） + 时间步 t（扩散步骤标记，控制去噪阶段）。
- Self - Attention（自注意力）：
  - 用 MS - RoPE（多模态可扩展旋转位置编码） + QK - Norm（查询键归一化），让模型关注图像不同 patches 间的关系，也能对齐文本和图像的位置信息（比如文本说“右侧椰子树”，模型知道该改图像右边的树）。
  - q/k/v（查询/键/值）机制：让模型智能聚焦重要区域（比如生成椰子树时，重点渲染树干、树叶细节）。
- Gate + MLP（门控 + 多层感知器）：控制信息流动，筛选、加工特征，让有用的文本和图像特征更好融合，比如强化“金色椰子”的生成细节。
- 多轮迭代（×N）：通过多层 MMDiT Block 逐步去噪，把噪声图像迭代成目标图像，每一层都让图像更接近文本描述。

4. 解码与后处理：UnPatchify（反分块）

作用：把 MMDiT 处理后的“潜在表征”，从拼图碎片（patches）还原成完整图像，输出最终的“椰子树场景”或编辑后的图像。

5. MSRoPE（多模态可扩展旋转位置编码）

在这里插入图片描述
图中用“猫的图像+文本（a、cute、cat）”案例，直观对比三种位置编码方式的差异，本质是解决“文本 token（如单词）如何与图像 patches（如猫的不同区域）建立位置关联”：

1. 朴素拼接编码（Naïve Position Encoding Concatenation）

做法：给图像 patches 按顺序编号（0 - 8），文本 token 也单独编号（9 - 11），直接拼接两者的位置编码。
问题：图像和文本的位置空间完全独立（图像是0 - 8，文本是9 - 11），模型无法理解“文本 token 对应图像哪个区域”，比如“cat”该关联猫的头部还是全身？

2. 列向编码（Column-wise Position Encoding）

改进：给图像 patches 分配二维坐标（如(-1,-1)、(0,0) ），文本 token 也分配新坐标（如(2,0)、(3,0) ），试图让文本沿“宽度（width）”方向对齐图像。
局限：文本与图像的坐标体系仍割裂（图像是(-1,-1)等，文本是(2,0)等），且仅沿单一维度（宽度）对齐，无法精准匹配复杂布局（比如“cute”该对应猫的脸部，但坐标只沿宽度延伸）。

3. MSRoPE（多模态可扩展旋转位置编码）

核心创新：
- 图像编码：以图像中心为原点（(0,0) ），用二维坐标（如(-1,-1)、(1,0) ）覆盖图像 patches，建立“中心辐射式”的位置空间；
- 文本编码：让文本 token 沿图像坐标的**对角线（diagonal）**分配位置（如(2,2)、(3,3) ），天然与图像坐标体系融合。
解决的关键问题：让文本与图像共享统一的位置空间，模型能理解“文本 token 的位置对应图像的哪个区域”，比如“cat”沿对角线对齐猫的尾部，“cute”对齐脸部，实现更精准的“文本-图像位置绑定”。
MSRoPE的设计优势
1. 统一位置空间：图像和文本的位置编码基于同一坐标系（图像是中心辐射的二维坐标，文本沿对角线延伸），解决了“跨模态位置割裂”的问题。
2. 可扩展性：无论图像分辨率如何缩放（比如从3×3 patches 变5×5），中心原点+对角线延伸的逻辑能适配，让模型在不同分辨率下保持位置编码的一致性。
3. 对齐文本语义：文本沿对角线分布，天然与“语义重要性”匹配——比如描述猫的文本，从“a”（泛指）到“cute”（特征）再到“cat”（主体），沿对角线延伸更贴合人类对图像的观察顺序（从局部到整体、从特征到主体）。

实验结果与展示

在这里插入图片描述

文本转图像代码

以下包含一个代码片段，说明如何使用模型根据文本提示生成图像：

from diffusers import DiffusionPipeline
import torchmodel_name = "Qwen/Qwen-Image"# Load the pipeline
if torch.cuda.is_available():torch_dtype = torch.bfloat16device = "cuda"
else:torch_dtype = torch.float32device = "cpu"pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)positive_magic = {"en": ", Ultra HD, 4K, cinematic composition.", # for english prompt"zh": ", 超清，4K，电影级构图." # for chinese prompt
}# Generate image
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197".'''negative_prompt = " " # Recommended if you don't use a negative prompt.# Generate with different aspect ratios
aspect_ratios = {"1:1": (1328, 1328),"16:9": (1664, 928),"9:16": (928, 1664),"4:3": (1472, 1104),"3:4": (1104, 1472),"3:2": (1584, 1056),"2:3": (1056, 1584),
}width, height = aspect_ratios["16:9"]image = pipe(prompt=prompt + positive_magic["en"],negative_prompt=negative_prompt,width=width,height=height,num_inference_steps=50,true_cfg_scale=4.0,generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]image.save("example.png")

图像编辑

import os
from PIL import Image
import torchfrom diffusers import QwenImageEditPipelinepipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit")
print("pipeline loaded")
pipeline.to(torch.bfloat16)
pipeline.to("cuda")
pipeline.set_progress_bar_config(disable=None)image = Image.open("./input.png").convert("RGB")
prompt = "Change the rabbit's color to purple, with a flash light background."inputs = {"image": image,"prompt": prompt,"generator": torch.manual_seed(0),"true_cfg_scale": 4.0,"negative_prompt": " ","num_inference_steps": 50,
}with torch.inference_mode():output = pipeline(**inputs)output_image = output.images[0]output_image.save("output_image_edit.png")print("image saved at", os.path.abspath("output_image_edit.png"))