当前位置：首页 > ds >正文

用语言模型训练出图像生成和理解能力：Liquid 框架论文速读

ds 2025/7/14 13:01:00

《Liquid: Language Models are Scalable and Unified Multi-modal Generators》论文讲解

一、引言

论文提出 Liquid，一种自回归生成范式，通过将图像和文本都转化为离散代码并在共享特征空间中学习，实现视觉理解和生成的无缝集成。与以往多模态大语言模型（MLLM）不同，Liquid 仅使用一个大型语言模型（LLM），无需外部预训练的视觉嵌入（如 CLIP）。研究发现，随着模型尺寸增大，视觉与语言任务统一训练导致的性能下降会减弱。Liquid 还能相互增强视觉生成与理解任务，消除早期模型中的干扰问题。此外，Liquid 基于现有 LLMs 构建，大幅节省训练成本，且在多模态能力与纯语言性能上表现优异。

二、研究方法

（一）图像标记化与模型架构

图像标记化：采用 VQGAN 将图像编码为离散令牌，类似于 BPE 对文本的处理方式。这样图像和文本共享词汇空间，使 LLM 能以相同方式理解和生成图像与文本。
模型架构：Liquid 基于解码器仅架构，可在任何现有 LLM 上构建。以 GEMMA-7B 为例，通过扩展词汇表添加 8192 个新可学习图像令牌嵌入，并扩展原始语言模型头部维度，实现文本和图像令牌在同一嵌入空间中的预测。

（二）数据准备与训练过程

数据准备：为保持预训练 LLM 的语言能力，从公共数据集中采样文本数据，并使用高质量图像数据，形成混合多模态数据用于继续预训练。
训练过程：采用 60M 数据继续预训练模型，定义多模态训练数据输入格式，并在训练中添加空间令牌。为解决大模型训练初期损失波动问题，降低最大梯度范数并使用 max-z 损失增强训练稳定性。

三、实验与关键发现

（一）视觉生成的扩展规律

实验表明，随着模型尺寸和训练迭代次数增加，验证损失平滑下降，令牌准确度和 VQA 得分持续上升，呈现出与 LLM 相符的幂律扩展趋势。

（二）视觉与语言生成的相互影响

小模型权衡现象：较小模型在混合训练时，语言性能受影响，但随着模型尺寸增大，这种权衡逐渐消失，表明大模型有能力同时处理视觉和语言任务。
视觉任务对语言任务的影响：混合训练使各尺寸模型在视觉生成任务上的验证损失升高，但随着模型尺寸增大，其对 VQA 得分的负面影响减弱。

（三）视觉理解与生成任务的相互促进

实验显示，增加视觉理解数据或生成数据，都能同时提升另一任务的性能，证明统一视觉令牌空间下，这两个任务可相互促进。

四、实验结果

（一）视觉生成任务

在 GenAI-Bench、MJHQ-30K 和 WISE 等基准测试中，Liquid 在视觉生成任务上表现优异，超越多个自回归统一 MLLM 和一些知名扩散模型，展现出良好的文本 - 图像对齐、图像真实性和保真度以及世界知识和推理能力。

（二）与主流 LLM 比较

在常识推理和阅读理解等基准测试中，Liquid 在大多数任务上超越了知名语言模型 Llama2 和混合预训练多模态语言模型 Chameleon，证明其语言能力未因视觉任务而退化。

（三）视觉理解任务

在多个视觉语言基准测试中，Liquid 超越了多个统一视觉理解和生成的 MLLM，并在一些任务上与专门从事视觉理解的模型表现相当。

（四）跨模态上下文学习

Liquid 展现出良好的跨模态上下文学习能力，能够通过少量多模态任务示例进行少样本适应，发现结构化的跨模态关系。

五、结论

论文提出 Liquid 框架，使语言模型无需修改原始结构即可获得图像生成和理解能力。通过一系列扩展实验，揭示了统一令牌空间下多模态模型的关键特性，包括视觉生成任务遵循扩展规律、多模态任务间相互促进等，为大规模预训练提供了新方向。

在这里插入图片描述

http://www.xdnf.cn/news/1201.html

相关文章：

从零开始创建MCP Server实战指南

描述城市出行需求模式的复杂网络视角：大规模起点-目的地需求网络的图论分析

牛客算法题目刷——链表总结

软考高级信息系统项目管理师的【干系人参与度评估矩阵】详解

网络流的各种模型+题单

【STM32单片机】#11 I2C通信（软件读写）

ClickHouse进行LEFT JOIN 关联查询时, 关联键的数据类型不一致,导致报错的解决方案详解

postgreSQL 如何使用 dblink

[创业之路-378]：企业法务 - 企业经营中有哪些触发刑法的风险？如何预防？

超级扩音器手机版：随时随地，大声说话

【漏洞复现】Struts2系列

Java核心API-网络编程

Relay IR的核心数据结构

小刚说C语言刷题——1031 温度转化

LLM 论文精读（一）Scaling Laws for Neural Language Models

Centos7安装Jenkins（图文教程）

Facebook商城开通全攻略：如何解决所在地区不可使用问题？

Java MCP客户端SDK实现

Javase 基础入门 —— 02 基本数据类型

[Godot] C#2D平台游戏基础移动和进阶跳跃代码

【多目标跟踪】sort源码环境调试

企业战略到数字化落地 —— 第一章企业战略

【Pandas】pandas DataFrame div

Python-27：游戏英雄升级潜力评估

spark和Hadoop的对比和联系

【Spring】静态代理、动态代理

在离线 Ubuntu 环境下部署双 Neo4j 实例（Prod Dev）

深入理解依赖、Jar 包与 War 包：Java 开发基石探秘

实验七 ADC0804 数字电压表