当前位置：首页 > ops >正文

【论文阅读】Deepseek-VL：走向现实世界的视觉语言理解

ops 2025/9/5 16:04:21

【论文阅读】Deepseek-VL：走向现实世界的视觉语言理解

文章目录

【论文阅读】Deepseek-VL：走向现实世界的视觉语言理解
- MOE
- - 专家学习特点
- Deepseek-VL
- - 混合视觉编码器
  - 视觉语言适配器
  - 语言模型
  - 训练阶段
  - 超参数与超结构

发展过程 deepSeek LLM-MOE-Math-V2-V3-R1

在学习前，我们需要先了解MOE所带来的意义

MOE

混合专家模型 (MoE) 的引入使得训练具有数千亿甚至万亿参数的模型成为可能

在这里插入图片描述

简单来说就是将原有的FFN结构来进行替换为多个FFN(专家)，他们之间的权重值是不同的

GShard 将在编码器和解码器中的每个前馈网络 (FFN) 层中的替换为使用 Top-2 门控的混合专家模型 (MoE) 层

在这里插入图片描述

专家容量是 MoE 中最重要的概念之一。为什么需要专家容量呢？因为所有张量的形状在编译时是静态确定的，无法提前知道多少Token会分配给每个专家，因此需要一个固定的容量因子。

专家学习特点

ST-MoE 的研究者们发现，编码器中不同的专家倾向于专注于特定类型的Token或浅层概念

特性：

某些专家可能专门处理标点符
而其他专家则专注于专有名词等
解码器中的专家通常具有较低的专业化程度

我们预计使用deepseek v2模型 MOE具体参数如下

{// 部分参数省略"hidden_act": "silu","hidden_size": 5120,"initializer_range": 0.02,"intermediate_size": 12288,"model_type": "deepseek_v2","moe_intermediate_size": 1536,"moe_layer_freq": 1,"n_group": 8,"n_routed_experts": 160,"n_shared_experts": 2,"norm_topk_prob": false,"num_experts_per_tok": 6,"num_hidden_layers": 60,"num_key_value_heads": 128,"topk_group": 3,"topk_method": "group_limited_greedy",
}

在这里插入图片描述

专家其实就是参数量更少的 FFN/MLP 结构，和 llama 中结构一样，只是参数量和计算量更少了

Deepseek-VL

关键方面构建：

Data Construction
Model Architecture
Training Strategy

我们在开发模型时追求在真实世界场景中的熟练性能，包括广泛的预训练，基于用例分类的仔细数据策展，高分辨率处理的模型架构设计，以及一个平衡多模态的训练策略

可以引导模型从1B扩展到7B

在这里插入图片描述

体现了deepseek-VL的多种理解和处理能力

混合方法有效地将1024×1024分辨率的图像（在大多数用例中已经足够）压缩为576个token

Data Construction：

视觉语言预训练数据
视觉语言监督微调数据

完整数据集的详细分类，分为以下几类：

交错的图像
表格和图表数据
Web Code数据
文档光学字符识别（OCR）数据
Text-only corpus

系统包含三个模块：

一个混合视觉编码器
一个视觉适配器
一个语言模型

混合视觉编码器

采用SigLIP作为视觉编码器，从视觉输入中提取高级语义特征表示

CLIP系列模型受到其相对低分辨率输入的限制

妨碍了他们处理需要更详细的低级功能

混合视觉编码器结合了SAM-B和SigLIP-L编码器，高效地编码高分辨率1024 x 1024图像，同时保留语义和详细信息

这些视觉令牌具有增强高级语义视觉识别和低级语义视觉识别的巨大能力水平的视觉基础任务

视觉语言适配器

两层混合MLP来桥接视觉编码器和LLM

不同的单层MLP分别用于处理高分辨率特征和低分辨率特征。随后，这些特征沿其维度沿着，然后通过另一层MLP转换到LLM的输入空间。

语言模型

语言模型建立在DeepSeek LLM

一系列DeepSeek-VL模型。鉴于目标是使用多模态和语言进行联合预训练，从DeepSeek的预训练模型中选择一个中间检查点继续预训练

训练阶段

我们在三个连续的阶段训练我们的DeepSeek-VL：

视觉语言Adaptor预热
联合视觉语言预训练
监督微调

Stage 1: Training Vision-Language Adaptor

这一阶段的主要目标是在嵌入空间内建立视觉和语言元素之间的概念联系，从而促进通过大语言模型（LLM）对图像中所描绘的实体的全面理解。

其中视觉编码器和LLM在此阶段保持冻结，同时只允许视觉语言适配器内的可训练参数

利用包括从ShareGPT 4V获得的125万个图像-文本配对字幕的数据集，沿着250万个文档OCR渲染对来训练VL适配器

Stage 2: Joint Vision-Language pretraining

理解多模态输入。我们保持视觉编码器冻结，并优化语言模型和VL适配器。

设计了一种简单而有效的联合语言-多模态训练策略。在训练过程中，我们不仅进行多模态数据训练，还将大部分语言数据纳入训练。

在这里插入图片描述

尝试找出最优的多模态和语言比例最后固定在了7:3

Stage 3: Supervised Fine-tuning

使用基于警告的微调来微调预训练的DeepSeek-VL模型

超参数与超结构

使用HAI-LLM训练和评估我们的DeepSeek-VL

DeepSeek-LLM中的重叠计算和通信（DeepSeek-AI，2024）. DeepSeek-VL 7 B在64个节点的集群上消耗了5天，每个节点包括8个Nvidia A100 GPU，而DeepSeek-VL-1B在涉及16个节点的设置上花费了7天

DeepSeek-VL致力于实现在应对这些挑战的同时最大限度地减少语言能力下降的目标

http://www.xdnf.cn/news/19589.html

相关文章：

Postman接口测试工具：高效管理测试用例与环境变量，支持断言验证及团队协作同步

软件设计师——软件工程学习笔记

前端架构知识体系：常见压缩算法全解析及原理揭秘（gzip、zip）

麒麟信安受邀出席第三届电子信息测试产业大会，参编四项团标发布，详解麒麟信安操作系统测试全流程

Navicat vs DBeaver vs DataGrip：三款主流数据库客户端深度对比与选择

力扣222 代码随想录Day15 第四题

【高并发内存池】三、线程缓存的设计

Steam开发者上架游戏完整指南（含具体技术细节）

【最新Pr 2025安装包（Adobe Premiere Pro 2025 中文解锁版）安装包永久免费版下载安装教程】

Java-Spring入门指南（一）Spring简介

如何把HTML转化成桌面Electron

B树和B+树，聚簇索引和非聚簇索引

网络准入控制，阻断违规外联-企业内网安全的第一道防线

通用的二叉数迭代方法

深入浅出 RabbitMQ-TTL+死信队列+延迟队列

如何使用Kafka处理高吞吐量的实时数据

赵玉平《跟司马懿学管理》读书笔记

智能高效的Go IDE——GoLand v2025.2全新上线

图像编码--监控摄像机QP设置大小？

Git 代码提交管理指南

为啥我Nginx证书配的没问题，但客户端却发现证书不匹配？

从零开始搭建体育电竞比分网，手把手教你全流程

京东科技大模型RAG岗三轮面试全复盘：从八股到开放题的通关指南

若想将gpu的代码在昇腾npu上运行，创建docker应该创建怎么样的docker?(待完善)

从模态融合到高效检索：微算法科技（NASDAQ:MLGO）CSS场景下的图卷积哈希方法全解析

【XR硬件系列】Apple Vision Pro 完全解读：苹果为我们定义了怎样的 “空间计算” 未来？

【C语言指南】回调函数：概念与实际应用的深度剖析

【LeetCode热题100道笔记】前 K 个高频元素

4种有效方法将联想手机数据传输到电脑

JD潜在前端二面高频题解析