当前位置: 首页 > ai >正文

MMaDA——开源首个多模态大扩散语言模型

在这里插入图片描述
MMaDA是一个全新的多模态扩散基础模型家族,旨在文本推理、多模态理解和文生图等多个领域实现卓越性能。该模型凭借三大创新点脱颖而出:

  1. 采用统一扩散架构:共享概率框架与模态无关设计,无需特定模态组件
  2. 创新混合长思维链微调策略:跨模态构建统一思维链格式
  3. 开发专用强化学习算法UniGRPO:基于策略梯度的统一训练方法,通过多样化奖励建模实现推理与生成任务的后训练统一,确保持续性能提升

📰 最新动态

  • [2025-05-22] 我们发布了MMaDA模型的推理与训练代码,支持文本生成、多模态生成及图像生成任务。
  • [2025-05-22] 在Huggingface平台开源了MMaDA-8B-Base模型。MMaDA-8B-MixCoT与MMaDA-8B-Max将于近期发布。
  • [2025-05-22] 首篇统一多模态扩散模型MMaDA的研究论文及演示平台正式上线。

🧬 MMaDA 系列概览

MMaDA 包含一系列反映不同训练阶段的检查点:

  1. MMaDA-8B-Base: 在预训练和指令微调之后。具备基本的文本生成、图像生成、图像描述和思维能力。
  2. MMaDA-8B-MixCoT (coming soon): 经过混合长思维链(CoT)微调。具备复杂的文本、多模态和图像生成推理能力。将于两周内发布。
  3. MMaDA-8B-Max (coming soon): 经过UniGRPO强化学习后,擅长复杂推理和惊艳的视觉生成。将在一个月后发布。

在这里插入图片描述

⚙️ 快速入门

首先,设置环境:

pip install -r requirements.txt

启动本地 Gradio 演示:

python app.py

🚀 推理

对于批量级别的推理任务,我们在此提供相关的推理脚本。

1. 文本生成

在文本生成方面,我们遵循LLaDA的配置和生成脚本。只需运行:

python generate.py
2. 多模态生成

对于多模态生成和文本到图像生成,首先登录您的wandb账户:

wandb login

多模态生成推理演示,您可以在wandb上查看结果

python3 inference_mmu.py config=configs/mmada_demo.yaml mmu_image_root=./mmu_validation question='Please describe this image in detail.' 
3. 文本到图像生成

对于多模态生成和文本到图像生成,首先登录您的wandb账户:

wandb login

文本到图像生成的推理演示,您可以在wandb上查看结果

python3 inference_t2i.py config=configs/mmada_demo.yaml batch_size=1 validation_prompts_file=validation_prompts/text2image_prompts.txt guidance_scale=3.5 generation_timesteps=15
mode='t2i'
http://www.xdnf.cn/news/8512.html

相关文章:

  • 计算机网络(3)——传输层
  • 攻防世界——Web题 unseping 反序列化绕过
  • [Git] 如何进行版本回退
  • Python打卡第35天
  • CloudWeGo-Netpoll:高性能NIO网络库浅析
  • Docker:容器化技术
  • Windows 配置 ssh 秘钥登录 Ubuntu
  • 实战教程:基于Vue.js与Django REST Framework的任务管理SPA开发全流程
  • 【论文阅读】——D^3-Human: Dynamic Disentangled Digital Human from Monocular Vi
  • 在 .NET 环境下实现跨进程高频率读写数据
  • HarmonyOS:相机管理
  • Vue 3.0中自定义Composition API
  • 无损提速黑科技:YOLOv8+OREPA卷积优化方案解析(原理推导/代码实现/调参技巧三合一)
  • 使用CodeBuddy基于Pygame模块实现贪吃蛇游戏
  • 快速失败(fail-fast)和安全失败(fail-safe)的区别
  • Python知识图谱工具全解析
  • Vue3性能优化: 大规模列表渲染解决方案
  • 【C++模板与泛型编程】重载与函数模板
  • Linux:再谈进程地址空间
  • go 访问 sftp 服务 github.com/pkg/sftp 的使用踩坑,连接未关闭(含 sftp 服务测试环境搭建)
  • 【无标题】python执行系统命令
  • PHP后端
  • github开源版pymol安装(ubuntu22.04实战版)
  • S32K开发环境搭建详细教程(一、S32K IDE安装注册)
  • 线性代数中的向量与矩阵:AI大模型的数学基石
  • VRRP虚拟路由器协议的基本概述
  • 生成模型——Pix2Pix
  • 光流法(Optical Flow)
  • 南京邮电大学《智能控制技术》期末抢救(上)
  • Mysql慢查询分析