当前位置: 首页 > news >正文

浙大与哈佛联合开源图像编辑模型IC-Edit,实现高效、精准、快速的指令编辑~

项目背景

研究动机与目标

ICEdit(In-Context Edit)由浙江大学团队开发,旨在通过自然语言指令实现高效、精准的图像编辑,降低对大规模训练数据和计算资源的需求。传统图像编辑方法(如基于微调的扩散模型或无训练技术)面临以下问题:

  • 微调方法:需要大量数据(数百万张图像)和计算资源(高性能 GPU),成本高且耗时。

  • 无训练技术:指令理解能力有限,编辑质量不稳定,尤其在复杂任务中。
    ICEdit 提出了一种新的范式,通过结合上下文生成和高效参数适配,实现在极少数据(50K 张图像,0.1%)和参数(200M,1%)的情况下达到 state-of-the-art(SOTA)性能。其目标是提供一个开源、低成本、高效的图像编辑工具,适用于学术研究和非商业应用。

在这里插入图片描述

技术背景

ICEdit 基于扩散变换器(Diffusion Transformer, DiT),这是近年来生成模型领域的重要进展。DiT 相较传统 U-Net 架构具有更强的生成能力和上下文感知能力,特别适合处理复杂指令。项目还受到 Flux.1 模型的启发,Flux.1 是一个高性能的开源扩散模型,广泛用于图像生成和编辑。ICEdit 在此基础上引入上下文生成(in-context generation),通过提示驱动模型理解和执行编辑任务,无需修改底层架构。

模型结构

基础模型:Flux.1

ICEdit 基于 Flux.1 系列模型(具体为 Flux.1-fill-dev),这是一个开源的高性能扩散模型,结合了扩散过程和变换器架构。Flux.1 的优势在于:

  • 生成能力: 支持高分辨率图像生成,细节保留良好。

  • 上下文感知: 变换器架构增强了模型对复杂指令的理解。

  • 灵活性: 可通过 LoRA 等技术进行轻量级微调,适配特定任务。

ICEdit 在 Flux.1 的基础上进行了优化,引入了上下文生成和高效适配策略,以支持指令-based图像编辑。

三大技术创新

ICEdit 的模型结构围绕以下三大创新构建,详细描述如下:

上下文编辑框架(In-Context Editing Framework)

在这里插入图片描述

  • 核心思想: 利用上下文提示(in-context prompting)实现零样本指令遵循。模型通过输入图像和文本指令,在不修改底层架构的情况下理解编辑需求。

  • 实现方式: 在推理时,模型接收图像和指令(如“Change her hair to dark green”),通过上下文生成机制直接生成编辑后的图像。这种方法避免了传统方法中对模型结构的重训练或大规模微调。

  • 优势: 增强了模型对多样化指令的适应性,特别适合处理复杂或非标准编辑任务。

  • 论文引用: “An in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes” [arXiv:2504.20690].

LoRA-MoE 混合调优策略(LoRA with Mixture-of-Experts)

在这里插入图片描述

  • 核心思想: 结合低秩适配(LoRA)和专家混合(MoE)路由机制,通过动态激活任务特定专家实现高效适配。

  • LoRA 部分: LoRA 通过在预训练模型中添加低秩矩阵(占参数量约 1%),实现轻量级微调,降低计算和存储需求。ICEdit 使用 LoRA 适配 Flux.1 模型,仅需 200M 可训练参数。

  • MoE 部分: MoE 路由机制根据任务类型动态选择专家模块(如人物编辑专家、背景替换专家),提高模型在多样化任务中的性能。

  • 实现细节: LoRA-MoE 混合策略在训练时仅更新少量参数(约 1%),并通过专家路由优化推理效率。训练数据仅 50K 张图像,远低于传统方法的数百万张。

  • 优势: 高效适配、多任务支持、低资源需求。

  • 论文引用: “A LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining” [arXiv:2504.20690].

早期过滤推理时缩放(Early Filter Inference-Time Scaling)

在这里插入图片描述

  • 核心思想: 在推理初期使用视觉-语言模型(VLMs)选择更优的初始噪声,提升编辑质量和一致性。

  • 实现方式: 扩散模型的推理过程从随机噪声开始,ICEdit 在早期阶段引入 VLM(如 CLIP 或类似模型)评估噪声质量,选择更接近目标编辑的初始噪声。这种方法提高了生成图像与指令的一致性。

  • 优势: 显著改善编辑质量,尤其在细节保留(如人物 ID)和指令遵循方面。

  • 论文引用: “An early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality” [arXiv:2504.20690].

性能对比

详见技术报告
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

看看效果

在这里插入图片描述

相关文献

github地址:https://arxiv.org/pdf/2504.20690
模型下载:https://huggingface.co/RiverZ/normal-lora/tree/main
官方地址:https://river-zhang.github.io/ICEdit-gh-pages/
在线体验地址:https://huggingface.co/spaces/RiverZ/ICEdit

http://www.xdnf.cn/news/342289.html

相关文章:

  • 淘宝九宫格验证码识别
  • 【UltralyticsYolo11图像分类完整项目-02】onnx模型转engine格式+TensorRT版Gpu预测C++实现
  • 动态规划之两个数组的dp问题(最长公共子序列)
  • Unity图集系统(Sprite Atlas)
  • Vue实现不同网站之间的Cookie共享功能
  • 信息系统项目管理工程师备考计算类真题讲解十四
  • 【软件设计师:软件工程】9.软件开发模型与方法
  • Java三大基本特征之多态
  • auto_ptr和unique_ptr
  • 统一授权与加密防护,CodeMeter 护航机器视觉创新全链路
  • kafka logs storage
  • 日语学习-日语知识点小记-构建基础-JLPT-N4阶段(16):单词与句子
  • Element-ui Table tree 结构使用(解决无展开箭头)
  • (14)Element Plus项目综合案例
  • 基础算法系列——树的入门
  • kafka records deletion policy
  • 如何设置内网映射端口到外网访问?哪些软件可以进行端口映射?
  • 2025.05.07-携程春招笔试第二题
  • flutter build apk出现的一些奇怪的编译错误
  • K8s网络从0到1
  • 《易语言学习大全》
  • k8s术语之DaemonSet
  • [python] 函数基础
  • 深入解析asyncio的实现与应用
  • C#简易Modbus从站仿真器
  • 如何将 Build at、Hash 和 Time git 的 Tag 号等构建信息,自动写入一个 JSON 文件
  • sql serve 多表联合查询,根据一个表字段值动态改变查询条件
  • 【Dify系列教程重置精品版】第七章:在Dify对话中显示本地图片之FastAPI与Uvicorn
  • PCL点云按指定方向进行聚类(指定类的宽度)
  • mission planner烧录ardupilot固件报错死机