当前位置：首页 > news >正文

【AI论文】GLM-4.1V-Thinking：迈向具备可扩展强化学习的通用多模态推理

news 2025/9/2 1:37:35

摘要：我们推出GLM-4.1V-Thinking，这是一款旨在推动通用多模态推理发展的视觉语言模型（VLM）。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，该模型可视为最终性能的上限基准。随后，借助课程采样强化学习（Reinforcement Learning with Curriculum Sampling，RLCS），我们充分释放了模型的潜力，使其在包括STEM问题求解、视频理解、内容识别、编程、指代消解、基于图形用户界面（Graphical User Interface，GUI）的智能体以及长文档理解等多样化任务中实现了全面的能力提升。为促进该领域的研究，我们开源了GLM-4.1V-9B-Thinking模型，其在同等规模模型中达到了顶尖性能。在涵盖28个公开基准测试的全面评估中，我们的模型在几乎所有任务上均优于Qwen2.5-VL-7B，并且在18个基准测试上，与规模大得多的Qwen2.5-VL-72B相比，也取得了相当甚至更优的性能。值得注意的是，在长文档理解和STEM推理等具有挑战性的任务上，GLM-4.1V-9B-Thinking与GPT-4o等闭源模型相比也展现出了相当或更优的性能，进一步凸显了其强大的能力。代码、模型及更多信息已在Github。Huggingface链接：Paper page，论文链接：2507.01006

一、研究背景和目的

研究背景

随着人工智能技术的快速发展，视觉语言模型（Vision-Language Models, VLMs）已成为现代智能系统的重要组成部分。这些模型不仅能够感知和理解视觉信息，还能处理和理解文本信息，从而实现跨模态的理解和推理。然而，随着任务复杂性的增加，对VLMs的推理能力提出了更高的要求。传统的VLMs主要依赖于简单的视觉内容感知，而在处理科学问题、开发自主智能体等复杂任务时，往往显得力不从心。因此，提升VLMs的推理能力，尤其是多模态推理能力，成为当前研究的热点和难点。

近年来，长文本推理和可扩展强化学习在提升大型语言模型（Large Language Models, LLMs）解决复杂问题能力方面取得了显著进展。然而，在VLMs领域，仍缺乏一个能够持续超越传统非思考型模型的多模态推理模型。此外，开源社区也缺乏一个在广泛任务中表现优异的通用多模态推理模型。

研究目的

本研究旨在开发一个名为GLM-4.1V-Thinking的视觉语言模型，通过引入可扩展的强化学习框架，提升模型在多模态推理任务上的性能。具体目标包括：

构建强大的视觉基础模型：通过大规模预训练，开发一个具备强大潜力的视觉基础模型，为后续的强化学习提供坚实的基础。
引入课程采样强化学习（RLCS）：通过RLCS框架，充分释放模型的潜力，实现跨多模态任务的全面能力提升。
推动多模态推理研究：通过开源GLM-4.1V-9B-Thinking模型和相关资源，促进多模态推理领域的研究和发展。

二、研究方法

1. 预训练阶段

为了构建一个强大的视觉基础模型，研究团队收集并整理了多样化的多模态数据集，包括：

图像-文本对：从公开数据集和网络搜索引擎中收集了超过100亿个图像-文本对，并通过多阶段优化流程确保数据质量。
自整理学术语料库：包含图像和文本交织的数据，如网页和书籍，通过专门的处理流程提取高质量数据。
光学字符识别（OCR）数据：构建了包含2.2亿张图像的大规模预训练数据集，涵盖合成文档图像、自然场景文本图像和学术文档。
视觉定位数据：构建了包含自然图像和图形用户界面（GUI）的混合定位数据集，提升模型的视觉定位能力。

预训练阶段采用多阶段训练策略，首先进行大规模的多模态预训练，然后进行长上下文持续训练，以扩展模型处理高分辨率图像、视频和长上下文的能力。

2. 监督微调阶段

为了将基础VLM转化为具备长链思考（Chain-of-Thought, CoT）推理能力的模型，研究团队构建了专门设计的长CoT语料库。该语料库不仅涵盖可验证的领域（如STEM问题），还包括不可验证的任务（如指令跟随和开放式写作）。通过全参数微调，使模型能够进行更有效的推理。

3. 强化学习阶段

引入课程采样强化学习（RLCS）框架，通过动态选择最具信息量的滚动问题，提升训练效率和性能。RLCS框架结合课程学习和难度感知采样，根据模型的当前能力选择合适的任务和样本进行训练。此外，研究团队还设计了一个多领域奖励系统，确保在不同多模态子领域中提供准确和一致的奖励信号。

三、研究结果

1. 模型性能

GLM-4.1V-9B-Thinking在28个公开基准测试中展现了卓越的性能，几乎在所有任务上都超越了Qwen2.5-VL-7B，并在18个基准测试上与规模大得多的Qwen2.5-VL-72B相比取得了相当甚至更优的性能。特别是在长文档理解和STEM推理等具有挑战性的任务上，GLM-4.1V-9B-Thinking与GPT-4o等闭源模型相比也展现出了相当或更优的性能。