当前位置：首页 > news >正文

5.1经典架构

news 2025/7/2 21:09:13

一、大模型架构

了解常见的大模型架构，如 GPT 系列、LLaMA 系列、GLM 系列、Qwen 系列、DeepSpeek 系列等。对比他们之间的差异，以及每个模型演变过程

模型	主要机构	技术路线	特点	中文适配情况
GPT 系列	OpenAI	Decoder-only	对话能力强、商业化领先	英文为主，GPT-4 支持多语言
LLaMA 系列	Meta	Decoder-only	开源标杆，轻量高效	LLaMA2/3 中文欠缺，Alpaca、BLOOM-Chinese 弥补
GLM 系列	清华智源	Encoder-Decoder 混合 / Autoregressive	更强的多任务能力，支持 blank filling	✅ 强化中文训练
Qwen 系列	阿里达摩院	GPT 风格、Decoder-only	中英文能力强，tokenizer 优秀	✅ 强中文优化
DeepSeek 系列	字节跳动	GPT-like + 代码优化	通用与代码兼顾	✅ 优秀中文与多模态版本

（一）GPT 系列

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

架构

1.总体架构:
GPT 是一个大型的 Transformer 解码器网络，旨在处理序列到序列的生成任务。它采用了多层 Transformer 解码器堆叠而成，以捕捉输入文本的长期依赖关系，并生成连贯的文本输出。

2.输入层:
●Tokenization: 文本输入首先经过分词处理，将文本转换为 Token 序列。这通常涉及将文本分割成单词、子词或其他基本单位。
●Embedding:分词后的 Token 序列通过 Embedding 层转换为固定维度的向量表示。Embedding 层将每个 Token 映射到一个高维空间中，捕捉其语义信息。

Transformer 解码器堆叠:
GPT 的核心是多个 Transformer 解码器的堆叠。每个解码器都包含以下几个关键组件:
● 自注意力机制:自注意力机制允许模型在处理序列时关注不同位置的 Token。通过计算 Token 之间的注意力权重，模型能够捕捉输入序列中的依赖关系，并为每
个位置生成上下文相关的表示。
● 前馈神经网络:除了自注意力机制外，每个解码器还包含一个前馈神经网络。该网络对自注意力机制的输出进行进一步转换，以提取更高级别的特征。FFN 用于对每个位置的表示进行独立的非线性变换
● 残差连接和层归一化:为了提高模型的训练稳定性和效果，每个解码器都使用了残差连接和层归一化。这些技术有助于缓解梯度消失和梯度爆炸问题，并加速模型的收敛。

4.输出层:
经过多个 Transformer 解码器堆叠处理后，最后一层的输出被用作生成文本的依据。对于每个位置，模型预测下一个 Token 的概率分布。这通常通过一个线性层和一个Softmax 激活函数来实现，将解码器的输出转换为概率值。

5.预训练和微调:
GPT 架构的训练过程分为两个阶段:预训练和微调:
● 预训练:在预训练阶段，模型使用大规模的无标注文本数据进行训练，以学习语言的统计规律和生成能力。通过自回归的方式，模型预测输入序列中的下一个 Token，并最大化在训练数据上的似然性。
● 微调:在微调阶段，模型使用特定任务的标注数据进行训练，以适应各种 NLP 任务。通过在模型的顶部添加适当的输出层，并使用任务特定的目标函数进行训练，模型能够学习将输入文本映射到特定任务的输出空间。

演进

GPT-1：首次引入预训练+微调
GPT-2：去掉了 1 阶段的有监督微调，在多任务上实现零样本学习（1.5B）
GPT-3：175B，1750 亿。强调少样本学习（few-shot learning）用户只需提供少量示例就可以引导模型完成复杂任务
GPT-3.5：RLHF
GPT-4：支持多模态（图文）输入

版本	特点	技术演化
GPT-1	开山之作，小规模（117M）	LM + Transformer Decoder-only
GPT-2	参数暴涨（1.5B），文本生成更强	训练数据多，通用性增强
GPT-3	175B，Few-shot learning	In-context learning 初现
GPT-3.5	更强推理、对话能力	微调 + RLHF
GPT-4	多模态（图文）、更强 reasoning	多专家 MoE 架构（猜测）

（二）LLaMA 系列

LLaMA 模型的结构设计包含多个创新点，确保其在高效性和性能方面的提升。以下是
LLaMA 模型的几个主要特点:
基于原始 Transformer 架构，引入 RMSNorm、SwiGLU 激活函数和 RoPE 位置编码

1. 引入 RMSNorm（pre-Norm）替代 layerNorm（Post-Norm）

计算复杂度降低：RMSNorm 省略了均值的计算步骤，减少计算复杂度
梯度传播稳定性：RMSNorm 仅只用 RMS 来处理标准化，减少了均值对梯度波动的影响，避免了数值不稳定的问题

2. 使用 siwGLU 替代 ReLU

非线性表达能力：swiGLU 通过 swish 的平滑特性和门控机制引入更强的非线性。而 ReLU 只是一种简单的线性分段函数，当输入负值时，梯度消失，导致神经元在训练过程中被抛弃。
信息传递与梯度流动：SwiGLU 不仅在正值区域保持较大的梯度，在负值区域也提供了较小但连续的梯度；而 ReLU 在负数区域导数为 0，有死神经元问题。
性能和泛化能力：SwiGLU 结合了 Swish 平滑激活函数特性和门控变化机制，增强了模型对复杂特征的学习能力，泛化能力强。ReLU 虽然简单高效，但是处理复杂问题可能捕捉不到丰富的特征，有局限性。
计算效率：ReLU 计算效率极高；swiGLU 计算复杂度高

3. RoPE

RoPE 不需要额外的位置嵌入，而是将位置信息直接融入到注意力机制的计算中。
核心思想是将位置信息潜入到 Q 和 K 的点积运算中，使得注意力机制包含了相对位置信息
关键信息：将位置信息用旋转的方式编码进词向量本身。
优点：

在处理长序列数据时表现出色，能够有效地捕捉长距离的位置依赖关系。
旋转不改变向量的模长，利于模型稳定性
非常适合多头注意力

缺点：

理解和解释其工作机制相对困难。
计算相对复杂，需要在复数空间中进行操作，增加了模型的计算量和实现难度

LLMA2:GQA

GQA:相比传统多头注意力机制，显著减少计算和存储成本，提升推理效率
上下文窗口：4k

LLama3

超长的上下文窗口：上下文窗口达到 8k，显著提升了模型处理长文本和复杂上下文的能力
使用更高效的 TikToken 分词器，用 rust 进行底层深度优化（前两代都是基于 sentencePiece
将 GQA 应用到较小的模型

（2. 支持多语言
（3. 强化安全措施：LLama3 集成了 LLama Guard3 等工具

LLaMa 3.1

超长上下文窗口：128k
多语言：8 种
多模态能力

LLaMa 3.2

通过剪枝和知识蒸馏技术，优化了模型的性能
推出了轻量模型

LLaMa 3.3

通过监督微调和 RLHF

（三）GLM 系列

采用改进的 transformer Decoder，LN 和残差连接的重排、输出层优化、激活函数调整、位置编码

LN 和残差连接的重排：对 LN（LayerNorm）和残差连接的顺序进行重新设计(残差连接后置)，旨在减少数值误差，能够提高稳定性和效果https://www.xiaohongshu.com/explore/66891d50000000001f0052a9?note_flow_source=wechat&xsec_token=CB6Qxq9eocI_nXJpRvhsv7txclEMjDvjqUFKi61Vx5R-4=
激活函数的调整：使用 GeLU 来替换 ReLU，GeLU 可以提供更平滑的梯度流动，从而提高模型的新来效率和性能
输出层的优化：使用单独的线性层进行输出 token 的预测，简化了模型解码过程，提高计算效率
2D 位置编码：https://www.xiaohongshu.com/explore/6789a957000000001b00b8c3?note_flow_source=wechat&xsec_token=CBbhR-QMTdAJOrfASWDFCwiOpw7MSEPHBNU30fIcMSfQg=

【ChatGLM 与 ChatGPT 什么区别？？】 https://www.bilibili.com/video/BV1S94y1G7NT/?share_source=copy_web

GLM 的创新：

2D 位置编码：绝对位置（序列中每个 token 的绝对位置）+相对位置（token 在片段内的相对位置）。（原文本位置 id+空白序列的 id：一个是字在句子当中的序列 id 号；一个是这个字被遮蔽区段的区段号）
填空序列乱序

版本	特点
GLM-130B	自回归 + Blank infilling	类似 UL2 思路
ChatGLM-6B	更轻量中文对话模型	支持中文指令微调
ChatGLM3 系列	多任务 / 多模态支持	推理、问答能力增强

🧠 技术点：

引入 PrefixLM + MaskedLM 混合训练。
支持中英双语、大量中文任务（更适合中文场景）。
增量预训练，善于 transfer。

（四）Qwen 系列

采用了旋转位置嵌入（RoPE）和无偏置的 RMSNorm 技术。
创新性地使用了闪光注意力（Flash Attention）来加速训练过程，
采用了 SwiGLU 激活函数以提高模型的性能。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 https://blog.csdn.net/Soulrobert520/article/details/145609625

架构调整：

RoPE 编码
RMS 代替 LayerNorm
激活函数 SwiGLU
GQA
在其他层去除 bias，在 QKV 的注意力机制层加入 bias

模型训练：

FlashAttention
AdamW 优化
BFloat16 混合精度

Qwen3 相较于 qwen2 主要结构在 attention 模块：

引入对 Q 和 K 的 RMS Norm
滑动窗口的判断逻辑移到了初始化阶段
attention 内部线性层的偏置项变为可配置

（五）DeepSpeek 系列

核心架构：MoE、基于 transformer 架构、MLA 机制
强化学习部分使用 deepseek 独家研发的 GRPO 框架、MTP(多 token 预测，将预测范围扩展到每个位置的多个未来 token)

deepspeek r1:针对特定任务
v3:通用

r1 的四个阶段：
（1）CoT 数据冷启动
（2）全场景强化学习
（3）拒绝采样和监督微调
（4）模型蒸馏：直接使用 deepspeek-r1 精选的 80 万样本对开源模型（如 Qwen、Llama）进行了微调，直接蒸馏的方式显著增强了较小模型的推理能力

https://www.xiaohongshu.com/explore/67a41a55000000002903e491?note_flow_source=wechat&xsec_token=CBn7UPhhRqR6lGsLrnueJs7sIbT5UmNwQqEruhsd84UXE=
v3 -> r1-zero：纯 RL，没有 SFT。阅读性差，不符合人类偏好

v3 -> r1 :
（0）首先对 v3 做 RL（GRPO 强化学习算法），得到了 r1-zero，但是可读性差的问题
（1）CoT 数据冷启动：使用 CoT 示例进行 SFT 的冷启动，增强推理能力
（2）RL 训练：对齐人类偏好
（3）拒绝采样和监督微调：纳入非推理能力，控制输出，增强通用能力
（全场景强化学习，对推理任务继续使用规则奖励，对与通用任务使用偏好奖励）

r1 -> r1-distill ：
模型蒸馏：直接使用 deepspeek-r1 精选的 80 万样本对开源模型(使用 r1 的数据对 Qwen、Llama 进行知识蒸馏)（如 Qwen、Llama）进行了监督微调，直接蒸馏的方式显著增强了较小模型的推理能力
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
v3 和 r1 的区别：
两者都属于 MoE,
⭕ r1 的架构来自 v3，甚至可以说 r1 是具有推理能力的 v3
✔️ DeepSeek-V3 采用了多头潜注意力 ( MLA，对传统多头注意力机制的改进) 和 DeepSeekMoE 架构（对传统 MoE 架构的改进），无辅助损失的负载平衡策略等创新技术，基于 Token 的数据进行训练，在代码生成、分析等任务中表现出色。

✔️ 相比之下，DeepSeek-R1 采用了多阶段训练方法，加入了 SFT，而不是采用纯粹的强化学习，R1 从一小组精心挑选的示例数据（称为“冷启动数据”）进行有监督微调（SFT），再进入强化学习。这种方法改善了 DeepSeek-R1-Zero 的语言可读性和连贯性，同时在推理之外的测试中实现了更好的性能。

⭕ 在训练过程方面，DeepSeek 的 R1 是以 V3 为基础构建的（冷启动）。

✔️V3 的训练包括预训练（含基础预训练和上下文长度扩展）、后训练三个阶段。
.
✔️DeepSeek-R1 的训练过程分为 4 个阶段，包括使用数千高质量 CoT 示例进行 SFT 的冷启动，面向推理的强化学习，通过拒绝抽样的 SFT，面向全场景任务的强化学习与对齐。两个 SFT 阶段进行推理和非推理能力的能力植入，两个强化学习阶段旨在泛化学习推理模式并与人类偏好保持一致。

gpt 回答

架构	Decoder-only	Encoder-Decoder	Prefix LM	MoE
GPT	✅	❌	❌	GPT-4（可能 MoE）
LLaMA	✅	❌	✅（LLaMA-3）	✅（LLaMA-3 部分）
GLM	✅ + Prefix	✅（GLM-130B）	✅	❌
Qwen	✅	❌	✅（提示词控制）	❌
DeepSeek	✅	✅（多模态部分）	✅	✅（MoE 明确）

适用场景建议对比

场景	推荐模型	原因
中文通用问答	ChatGLM、Qwen、DeepSeek	中文训练占比高，指令能力好
多语言多模态	GPT-4（商用）、DeepSeek-VL	多模态、多语言支持强
代码生成	DeepSeek-Coder、Qwen	精调过大量代码，支持编程任务
小模型部署	LLaMA、Qwen-1.8B、ChatGLM2-6B	参数少，效果好，支持推理部署
教学/研究开源模型	LLaMA2、Qwen、ChatGLM	社区成熟，可二次开发