当前位置: 首页 > news >正文

字节跳动推出开源多模态模型 BAGEL 从图像生成到世界建模

字节跳动近日正式发布其最新开源多模态基础模型 ——BAGEL(Big Advanced Generalized Embodied Learner),以 70 亿个有效参数的规模,开启多模态 AI 模型的新阶段。

卓越的性能表现

BAGEL 在图像理解、生成和编辑等关键任务中表现卓越,已在多个标准评测中超越当前主流开源视觉语言模型(VLM),如 Qwen2.5 - VL 和 InternVL - 2.5。它基于大规模交错多模态数据进行训练,拥有强大的文本转图像生成能力,生成效果甚至可媲美专业级生成器 Stable Diffusion3(SD3)。在图像编辑、自由形式操作、多视图合成等复杂任务中,BAGEL 的定性表现显著优于现有模型,显示出其在 “世界建模” 等前沿方向上的潜力。无论是生成布料展开图、人物公仔形象,还是进行复杂图像编辑,BAGEL 都能轻松驾驭,其 “一键试妆” 功能更是让用户直观体验到 AI 图像编辑技术的便捷与强大。不仅如此,它还具备多视角合成和导航等 “世界建模” 能力,让用户仿佛置身于真实场景之中。

创新的技术架构

技术架构方面,BAGEL 采用混合变压器 - 专家(MoT)结构,并使用两个独立编码器分别捕捉图像的像素级和语义级特征。像素级编码器聚焦于颜色、纹理等底层细节,语义级编码器则着眼于物体类别、场景含义等高层语义。整体框架遵循 “下一组标记预测” 策略,支持更高效的多模态预训练与监督学习,从而在理解与生成能力上实现阶梯式增强。该架构由两个 Transformer 专家组成,一个负责多模态理解,另一个专注于多模态生成。同时,这样的设计使得模型能够更好地处理多模态数据,通过不断学习预测后续的 token,持续优化对多模态数据的处理能力。

独特的训练过程

在训练过程中,研究团队发现随着数据规模与模型参数的双重扩展,BAGEL 展现出了 “涌现能力”。多模态理解和生成能力率先出现,基础编辑能力随后跟进,而复杂的智能编辑能力则在后期逐步显现。这一发现揭示了高级多模态推理是在完善的基础技能之上循序渐进形成的,并非一蹴而就的 “突变”。字节跳动使用来自语言、图像、视频和网络数据的数万亿个多模态标记进行预训练、持续训练和监督微调,以扩展 MoT 的容量,随着 BAGEL 预训练的扩展以及更多多模态标记的添加,理解、生成和编辑任务的性能也在持续提升。

广泛的应用场景

从实际应用来看,BAGEL 的能力使其具有广泛的应用前景。在内容创作领域,无论是生成高质量的图像、视频还是交互式网页,都能显著提高创作效率,特别适用于短视频平台的内容制作。科研人员可以利用它生成包含图表的学术报告,自动解析复杂文献,极大地提高科研效率。其自由格式编辑功能,让广告设计和影视后期制作变得更加简单高效。BAGEL 的多轮对话和思维链推理能力,使其还能成为一个强大的智能助手。

目前,BAGEL 模型已在 Hugging Face 上架,并采用相对宽松的 Apache 2.0 许可证,这意味着开发者和研究人员能够更加自由地使用、修改和分发该模型,极大地促进了 AI 技术的开源生态发展。BAGEL 的开源,为图像生成、多模态 AI 等领域注入新的活力,推动相关技术在更多行业和场景中的应用与创新,也标志着通用人工智能迈入更实用、更开放的新阶段,让我们共同期待它在未来能带来更多的惊喜与可能。

http://www.xdnf.cn/news/676171.html

相关文章:

  • java上机测试错题回顾(2)
  • 万象生鲜配送系统 2025-05-23 更新日志
  • 使用新一代达梦管理工具SQLark,高效处理 JSON/XML 数据!
  • 多元一次不定方程
  • NGINX HTTP/2 全面指南开启、调优与实战
  • HTML常见事件详解:从入门到实战应用
  • OpenHarmony定制系统组合按键(一)
  • springBoot项目测试时浏览器返回406问题解决方案
  • iOS QQ抽屉式导航的实现
  • NIFI的性能调优
  • FilterAnalysis -滤波器分析
  • 用nz-tabel写一个合并表格
  • 利用机器学习优化数据中心能效
  • 深度学习实战109-智能医疗随访与健康管理系统:基于Qwen3(32B)、LangChain框架、MCP协议和RAG技术研发
  • 复杂度拆解
  • 程序环境与预处理
  • Cesium添加点、线、面
  • TF 卡 U1 和 U3 有什么区别?一文解析关键差异
  • SQL语句内容处理——给每行内容都添加单引号和逗号
  • 理解vue-cli 中进行构建优化
  • 【Elasticsearch】`_refresh`和`_flush`的区别
  • vue3+vite+amfe-flexible+postcss-pxtorem 实现全分辨率自适应
  • AI工具的选择:Dify还是传统工具?
  • 【C++】封装哈希表实现 unordered_map、unordered_set
  • 【Harmony OS】组件自定义属性、事件和状态管理
  • 【Webtrees 手册】第 9 章 - 开发指南
  • Mobaxterm 连接到 Docker 容器
  • 查询端口占用情况的命令(windows、linux)
  • Flink Table API 编程实战详解
  • IoT/HCIP实验-1/物联网开发平台实验Part2(HCIP-IoT实验手册版)