当前位置：首页 > web >正文

【LLM MoE】论文分享No.11：DeepSeekMoE

web 2025/8/22 3:33:46

论文名称：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

论文：https://arxiv.org/abs/2401.06066

机构：DeepSeek AI + 北大 + 清华 + 南大

时间线：2024/01/11（submitted）

简介

DeepSeekMoE这篇论文，早在2024年1月就发布出来了，当时毕竟是国内首个开源MoE大模型，而且效果确实不错。我们团队内部很快就阅读了技术报告，并进行了一些讨论，现在过去快一年半了，市面上确实也出现越来越多的MoE架构模型，证明了这种架构的潜力。

现在回头再看这篇论文，在记录关键内容的同时，也谈谈自己的认识。

通用 MoE 架构介绍

标准Transofmer语言模型

标准Transformer语言模型是通过堆叠L个标准Transformer模块层来构建的，其中每个模块可以表示如下:

在这里插入图片描述

主要是表达了两个逻辑:

L层注意力模块之后所有token的隐藏状态 = L-1层Transformer块之后的输出隐藏状态 + L-1层Transformer块之

后的输出隐藏状态的自注意力块状态

L层Transformer块之后的输出隐藏状态 = L层注意力模块之后所有token的隐藏状态 + L层注意力模块之后所有

token的隐藏状态的前馈神经网络输出状态

注：类似下图的描述，思想来源于残差网络的设计，能使网络层数堆叠的更深。

在这里插入图片描述

MoE 的常见做法

构建MoE语言模型的一种常见做法是在Transformer的指定间隔处用MoE层替换FFNs。

MoE层由多个专家组成，每个专家在结构上与标准FFN相同。然后，每个Token将被分配给一个或两个专家。如果第L个FFN被MoE层替换，其输出隐藏状态的计算表示为:

在这里插入图片描述

其中s表示Token到专家的亲和力(token-to-expert affinity)，每个Token都被分配到一个或多个专家，而亲和力表示了某个Token与各个专家之间的关联程度或选择概率。

DeepSeek MoE 架构介绍

整体框架

在这里插入图片描述

图2是DeepSeekMoE的示意图，展示了三个子图，分别说明了不同的MoE层架构。

子图(a)：展示了具有传统Top-2路由策略的MoE层。在这种情况下，每个Token被分配给两个专家中的一个，即Top-2。这是传统的MoE路由策略，其中每个Token只与两个专家相关。
子图(b)：说明了Fine-grained expert segmentation策略。相比于传统的Top-2路由，DeepSeekMoE采用了更细粒度的专家划分，将专家进一步分为多个子专家。这样，每个Token可以与更多的专家相关，实现更灵活的激活专家的组合。
子图©：展示了Shared expert isolation策略。在这种情况下，一些专家被标记为共享专家，旨在捕捉共同知识并减轻激活专家之间的冗余。这种共享专家隔离策略有助于提高模型的性能和效率。

Fine-grained expert segmentation 策略

如何保持计算成本不变？通过减少每个专家的大小，来提高专家的数量。

在这里插入图片描述

Shared expert isolation策略

如何保持计算成本不变？假设每次选择Top-K个专家，其中Ks个专家作为共享专家，剩下K-Ks个作为激活专家。

在这里插入图片描述

Load Balance Consideration Loss

自动学习的路由策略可能会遇到负载不平衡的问题，这表现为两个值得注意的缺陷：

路由崩溃的风险：模型总是只选择少数专家，从而阻止其他专家进行充分训练。
计算瓶颈：如果专家分布在多个设备上，负载不平衡会加剧计算瓶颈。

所以，提出了两个Loss来解决这个问题：

① Expert-Level Balance Loss

专家级别的平衡损失有助于防止路由崩溃。

在这里插入图片描述

② Device-Level Balance Loss

设备级别的平衡损失用于确保在设备之间的平衡计算。

在这里插入图片描述

实验部分

数据处理

训练数据是从DeepSeek-Al创建的大规模多语言语料库中采样的。语料库主要侧重于英语和中文，但也包括其他语言。它来源于多种来源，包括网络文本、数学材料、编码脚本、已发表的文献和各种其他文本材料。出于验证实验的目的，作者从语料库中抽取一个包含100B个标记的子集来训练模型。

对于Tokenization，作者使用HuggingFace Tokenizer，在训练语料库的较小子集上训练byte pair encoding tokenizer。在验证实验中，作者准备了一个词汇量为8K的tokenizer，在训练更大的模型时，词汇量会放大。

训练框架

实验基于HAI-LLM框架进行，这是一个高效且轻量级的训练框架，整合了多种并行策略，包括张量并行、ZeRO数据并行、PipeDream pipeline并行以及专家并行通过结合数据和张量并行。作者为了优化性能，使用CUDA和Triton为门控算法开发了GPU内核，并在不同专家的线性层之间进行计算融合。

所有实验在配备A100或H800的集群上进行。A100集群中的每个节点包含8个GPU，通过NVLink成对连接。H800集群还具有每个节点8个GPU，节点内部使用NVLink和NVSwitch相互连接。对于A100和H800集群，InfiniBand互连用于节点间的通信。

超参设置

作者在附录A中提供了不同大小的DeepSeekMoE超参数概述表。

在这里插入图片描述

实验结果

① 【表1】在验证实验中，对比Dense、Hash Layer、Switch Transformer、GShard等模型，具有相同总参数和激活参数的DeepSeekMoE在各项任务指标上表现优异，展现出相对于其他MoE架构的显著性能优势。

在这里插入图片描述

② 【表2】对比了DeepSeekMoE与更大规模的GShard×1.5和Dense×16模型，结果显示DeepSeekMoE能与专家参数和计算量1.5倍于自身的GShard×1.5达到相当的性能，且接近参数为其16倍的Dense×16模型的性能，体现了DeepSeekMoE架构的优势以及其性能接近MoE模型理论上限。

在这里插入图片描述