当前位置：首页 > news >正文

【MLLM】多模态理解GLM-4.1V-Thinking模型

news 2025/7/14 9:55:26

note

GLM-4.1V-Thinking模型引入课程采样强化学习（RLCS, Reinforcement Learning with Curriculum Sampling）策略，在多个复杂推理任务中实现能力突破，整体性能达到 10B 级别视觉语言模型的领先水平。
GLM-4.1V-9B-Thinking 通过引入「思维链」（Chain-of-Thought）推理机制，在回答准确性、内容丰富度与可解释性方面，全面超越传统的非推理式视觉模型，在28项评测任务中有23项达到10B级别模型最佳，18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B
相关能力：视频理解、图片识别、GUI Agent（如下）、代码生成等
Prompt：在APP中，帮我创建一个两周后3点与史密斯博士的会议
输出：Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}
基于可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF）
在视觉编码器部分，我们将原始的二维卷积替换为三维卷积，从而实现对视频输入在时间维度上的下采样，有效提升了处理效率。

文章目录

note
一、GLM-4.1V-Thinking模型
二、模型解析
- 1、模型架构
- 2、训练流程
Reference

一、GLM-4.1V-Thinking模型

论文链接：GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
https://arxiv.org/abs/2507.01006

开源列表：Github：
https://github.com/THUDM/GLM-4.1V-Thinking

ModelScope：
https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

Hugging Face：
https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578dHuggingFace

体验链接：
https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

魔搭社区体验链接：
https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-DemoAPI：API 接口文档：
https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

二、模型解析

1、模型架构

GLM-4.1V-Thinking 模型架构由三个核心模块组成：视觉编码器（ViT Encoder）、多层感知机适配器（MLP Projector）以及语言解码器（Language Decoder）
在这里插入图片描述

AIMv2-Huge 作为视觉编码器，GLM 作为语言解码器。在视觉编码器部分，我们将原始的二维卷积替换为三维卷积，从而实现对视频输入在时间维度上的下采样，有效提升了处理效率。对于静态图像输入，则通过复制帧的方式以保持输入格式的一致性。

为进一步增强模型对任意图像分辨率和宽高比的适应能力，我们引入了两项关键改进：

其一，融合二维旋转位置编码（2D-RoPE），使模型能够稳定处理极端宽高比（如超过200:1）和超高分辨率（如4K以上）的图像；
其二，为保留ViT预训练模型的原有能力，我们保留了其可学习的绝对位置嵌入，并通过双三次插值方式在训练过程中动态适配不同分辨率输入。

在语言解码器中，我们对原始的旋转位置编码（RoPE）进行了三维扩展（3D-RoPE）。这一设计显著增强了模型在多模态输入处理中的空间理解能力，同时保持了其在文本生成方面的原始性能。

2、训练流程

GLM-4.1V-Thinking 的训练过程分为三个阶段：预训练（Pretraining）、监督微调（SFT）和强化学习（RL）。

（1）预训练阶段预训练分为两个连续子阶段：多模态预训练与长上下文持续训练。

多模态预训练：初始阶段旨在构建模型的通用多模态理解能力。我们使用两路张量并行策略，对所有参数进行了 120,000 步训练，序列长度为 8,192，全局批量大小为 1,536。训练数据涵盖图像字幕、交错图文、OCR、Grounding、指令响应等多种模态。为提高训练效率，我们采用样本拼接的数据打包策略，将可变长度样本压缩成接近最大长度的序列，充分利用显存资源。
长上下文持续训练：为增强模型对高分辨率图像、视频序列及超长文本的处理能力，我们引入了更复杂的训练数据，包括视频帧序列和长度超过 8K tokens 的图文混合内容。该阶段将序列长度扩展至 32,768，采用混合并行策略（2路张量并行 + 4路上下文并行），并继续训练 10,000 步，保持全局批量大小为 1,536。

（2）监督微调（SFT）在微调阶段，我们特别构建了一个高质量的 CoT（思维链）训练集，用于强化模型的长篇因果推理能力。训练样本统一采用以下格式：

<think> {推理过程} </think> <answer> {最终答案} </answer>

微调使用全参数训练，序列长度为 32,768，批量大小为 32。训练语料来自多个任务场景，包括数学题解、多轮对话、代理规划与复杂指令跟随，涵盖图文、多模态及纯文本等不同类型。这一阶段不仅提高了多模态推理能力，也保持了模型在语言理解与逻辑推演方面的稳定表现。

（3）课程采样强化学习（RLCS）
在 SFT 基础上，我们引入强化学习全面优化模型性能。我们结合两种方法：基于可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF），覆盖多个关键任务维度：

STEM领域问题求解（数学、物理、化学）
多模态信息定位与理解（OCR、实体定位、视频分析）
智能体任务（GUI交互、代理规划）
文档与图表理解、逻辑推理、复杂指令执行等

通过课程采样，在这些任务上开展由易而难的动态大规模强化学习训练，模型在实用性、准确性和稳健性等方面取得了显著提升。

Reference

[1] GLM-4.1V-Thinking 模型开源

查看全文

http://www.xdnf.cn/news/1115983.html

深度学习图像分类数据集—水质量识别分类

java.net.InetAddress

Extended Nested Arrays for Consecutive Virtual Aperture Enhancement

RHCIA第二次综合实验：OSPF

印度纱丽变革：传统靛蓝工艺在无性别斗篷中的延续

CMSIS（Cortex Microcontroller Software Interface Standard）ARM公司为 Cortex-M 系列处理器

docker 设置代理以及配置镜像加速

VISUALBERT：一个简单且高效的视觉与语言基线模型

JavaScript加强篇——第九章正则表达式高级应用（终）

java+vue+SpringBoo中小型制造企业质量管理系统（程序+数据库+报告+部署教程+答辩指导）

archive/tar: unknown file mode ?rwxr-xr-x

Java行为型模式---策略模式

低代码引擎核心技术：OneCode常用动作事件速查手册及注解驱动开发详解

2023.05.06 更新前端面试问题总结（12道题）

VsCode的LivePreview插件应用

【hivesql 已知维度父子关系加工层级表】

Pytorch实现感知器并实现分类动画

JAVA并发——什么是Java的原子性、可见性和有序性

git实操

composer如何安装以及举例在PHP项目中使用Composer安装TCPDF库-优雅草卓伊凡

【基础算法】倍增

【开源项目】拆解机器学习全流程：一份GitHub手册的工程实践指南

从儿童涂鸦到想象力视频：AI如何重塑“亲子创作”市场？

ABP VNext + 多级缓存架构：本地 + Redis + CDN

Linux的 iproute2 配置:以太网(Ethernet)、绑定(Bond)、虚拟局域网(VLAN)、网桥(Bridge）笔记250713

Prometheus 第一篇：快速上手

Vue配置特性（ref、props、混入、插件与作用域样式）

第三章-提示词-解锁Prompt提示词工程核销逻辑，开启高效AI交互（10/36）

Linux|服务器|二进制部署nacos（不是集群，单实例）（2025了，不允许还有人不会部署nacos）

学习C++、QT---23（QT中QFileDialog库实现文件选择框打开、保存讲解）