当前位置: 首页 > news >正文

阿里联合上海AI Lab提出DMM!多个模型压缩成一个通用T2I模型!可控任意风格生成!

阿里联合上海 AI Lab 提出了一种基于分数蒸馏的模型合并范式DMM,将多个模型压缩为一个多功能的 T2I 模型。DMM 能够在风格提示的控制下生成各种专业风格的图像(写实风格、亚洲肖像、动漫风格等)。

效果展示

结果

与字符 LoRA 相结合的结果

两种风格插值的结果

  • 论文:https://arxiv.org/pdf/2504.12364

  • 代码:https://github.com/MCG-NJU/DMM

  • 模型:https://huggingface.co/MCG-NJU/DMM

  • 试用:https://huggingface.co/spaces/MCG-NJU/DMM

  • 工作流:https://github.com/songtianhui/ComfyUI-DMM

论文介绍

论文名:DMM:Building a Versatile Image Generation Model via Distillation-Based Model Merging

文本转图像 (T2I) 生成模型的成功促使大量基于同一基础模型在各种专用数据集上进行微调的模型检查点的涌现。这种庞大的专用模型生成过程带来了新的挑战,例如高参数冗余和巨大的存储成本,因此亟需开发有效的方法将各种强大模型的功能整合并统一为一个模型。模型合并的一种常见做法是在参数空间中采用静态线性插值来实现风格混合。然而,这种方法忽略了 T2I 生成任务的特点,即众多不同的模型涵盖了各种风格,这可能导致合并后的模型不兼容和混乱。

为了解决这个问题,论文引入了一种可自动生成风格图像的流程,该流程可以在风格向量的控制下准确地生成任意风格的图像。基于此设计提出了基于分数蒸馏的模型合并范式 (DMM),将多个模型压缩为一个通用的 T2I 模型。此外通过提出新的合并目标和评估方案,在T2I生成背景下重新思考并重新制定了模型合并任务。实验表明 DMM 可以紧凑地重组来自多个教师模型的知识,并实现可控的任意风格生成。

方法概述

DMM 的分布式训练框架。

  • (a)训练期间 GPU 集群上的模型布局。每个节点分配一个特定的教师模型,以共享参数共同监督学生模型。维护一组可学习的嵌入(风格提示),以提供提示并相互区分。

  • (b)持续学习。通过初始化和添加新的嵌入,引入新的教师模型。冻结的预训练学生模型作为正则化,风格提示随机选择。

基于蒸馏的模型合并的可风格提示的生成流程。提出的蒸馏目标包含三个损失项:分数蒸馏、特征模仿和多类对抗损失。

基于蒸馏的模型合并的可风格提示的生成流程。提出的蒸馏目标包含三个损失项:分数蒸馏、特征模仿和多类对抗损失。

实验结果

不同风格选择的视觉生成结果。每组中,第一行是我们模型的结果,第二行是相应的教师模型的结果。

不同风格选择的视觉生成结果。每组中,第一行是我们模型的结果,第二行是相应的教师模型的结果。

DMM与ControlNetCanny、IP-Adapter、字符LoRA集成的可视化效果

DMM与ControlNetCanny、IP-Adapter、字符LoRA集成的可视化效果

结论

论文重新思考了T2I扩散模型领域的模型合并任务,并构建了一个多功能、可支持样式提示的扩散模型,用于可控的图像生成。具体而言,作者提出了一种基于分数蒸馏的简单而有效的合并范式DMM,DMM利用三种类型的损失函数来提升合并性能,并进行正则化以支持稳定的持续学习。借助我们设计的基于嵌入的样式控制机制,用户可以在推理过程中操作样式提示,灵活地执行各种样式组合。论文基于新的指标设计了一个评估基准,结果表明提出的合并模型在图像生成质量方面能够很好地模拟专家教师模型。

http://www.xdnf.cn/news/913051.html

相关文章:

  • PSpice软件快速入门系列--08.如何进行PSpice AA灵敏度分析
  • 轻松备份和恢复 Android 系统 | 4 种解决方案
  • 【Linux】ls 命令详解及使用示例:列出目录中的内容
  • 【动手学MCP从0到1】2.5 MCP中的Context日志输出、进度汇报和服务端调用客户端的大模型项目实现步骤详解
  • MultipartFile
  • Date类型时间比较
  • 亚马逊跨境:亚马逊优惠券新规和促销机制大改后的定价策略
  • 代驾数据库
  • ISO 26262-6
  • 箭头函数和普通函数的区别?
  • 在UI界面内修改了对象名,在#include “ui_mainwindow.h“没更新
  • 电子电路基础2(杂乱)
  • 登高架设作业操作证考试:理论题库高频考点有哪些?
  • MCP协议三种传输机制全解析
  • unity Addressable的基本使用
  • Anthropic 的交互式提示工程教程:Claude 用户的实战指南
  • AI任务相关解决方案6-模糊神经网络与强化学习融合,优化PID参数,适合高精度、多变量耦合系统
  • 大白话解释SMBus2.0
  • java 编程基础入门级超级完整版教程指南
  • 微信小程序实现膳食营养计算
  • Java调用大模型API实战指南
  • IBM官网新闻爬虫代码示例
  • 【量化】量化策略交易
  • Go性能剖析工具:pprof实战指南
  • JS手写代码篇---手写函数柯里化
  • Dify中聊天助手、agent、文本生成、chatflow、工作流模式解读分析与对比
  • 【java】在springboot中实现证书双向验证
  • 告别繁琐配置:在线运行 Matplotlib 画图,Python 环境免安装新体验!
  • 嵌入(Embedding)技术的实现原理与应用场景解析
  • 基于KNN算法的入侵检测模型设计与实现【源码+文档】