5.1经典架构
一、大模型架构
了解常见的大模型架构,如 GPT 系列、LLaMA 系列、GLM 系列、Qwen 系列、DeepSpeek 系列等。对比他们之间的差异,以及每个模型演变过程
模型 | 主要机构 | 技术路线 | 特点 | 中文适配情况 |
---|---|---|---|---|
GPT 系列 | OpenAI | Decoder-only | 对话能力强、商业化领先 | 英文为主,GPT-4 支持多语言 |
LLaMA 系列 | Meta | Decoder-only | 开源标杆,轻量高效 | LLaMA2/3 中文欠缺,Alpaca、BLOOM-Chinese 弥补 |
GLM 系列 | 清华智源 | Encoder-Decoder 混合 / Autoregressive | 更强的多任务能力,支持 blank filling | ✅ 强化中文训练 |
Qwen 系列 | 阿里达摩院 | GPT 风格、Decoder-only | 中英文能力强,tokenizer 优秀 | ✅ 强中文优化 |
DeepSeek 系列 | 字节跳动 | GPT-like + 代码优化 | 通用与代码兼顾 | ✅ 优秀中文与多模态版本 |
(一)GPT 系列
架构
1.总体架构:
GPT 是一个大型的 Transformer 解码器网络,旨在处理序列到序列的生成任务。它采用了多层 Transformer 解码器堆叠而成,以捕捉输入文本的长期依赖关系,并生成连贯的文本输出。
2.输入层:
●Tokenization: 文本输入首先经过分词处理,将文本转换为 Token 序列。这通常涉及将文本分割成单词、子词或其他基本单位。
●Embedding:分词后的 Token 序 列通过 Embedding 层转换为固定维度的向量表示。Embedding 层将每个 Token 映射到一个高维空间中,捕捉其语义信息。
- Transformer 解码器堆叠:
GPT 的核心是多个 Transformer 解码器的堆叠。每个解码器都包含以下几个关键组件:
● 自注意力机制:自注意力机制允许模型在处理序列时关注不同位置的 Token。通过计算 Token 之间的注意力权重,模型能够捕捉输入序列中的依赖关系,并为每
个位置生成上下文相关的表示。
● 前馈神经网络:除了自注意力机制外,每个解码器还包含一个前馈神经网络。该网络对自注意力机制的输出进行进一步转换,以提取更高级别的特征。FFN 用于对每个位置的表示进行独立的非线性变换
● 残差连接和层归一化:为了提高模型的训练稳定性和效果,每个解码器都使用了残差连接和层归一化。这些技术有助于缓解梯度消失和梯度爆炸问题,并加速模型的收敛。
4.输出层:
经过多个 Transformer 解码器堆叠处理后,最后一层的输出被用作生成文本的依据。对于每个位置,模型预测下一个 Token 的概率分布。这通常通过一个线性层和一个Softmax 激活函数来实现,将解码器的输出转换为概率值。
5.预训练和微调:
GPT 架构的训练过程分为两个阶段:预训练和微调:
● 预训练:在预训练阶段,模型使用大规模的无标注文本数据进行训练,以学习语言的统计规律和生成能力。通过自回归的方式,模型预测输入序列中的下一个 Token,并最大化在训练数据上的似然性。
● 微调:在微调阶段,模型使用特定任务的标注数据进行训练,以适应各种 NLP 任务。通过在模型的顶部添加适当的输出层,并使用任务特定的目标函数进行训练,模型能够学习将输入文本映射到特定任务的输出空间。
演进
GPT-1:首次引入 预训练+微调
GPT-2:去掉了 1 阶段的有监督微调,在多任务上实现零样本学习(1.5B)
GPT-3:175B,1750 亿。强调少样本学习(few-shot learning)用户只需提供少量示例就可以引导模型完成复杂任务
GPT-3.5:RLHF
GPT-4:支持多模态(图文)输入
版本 | 特点 | 技术演化 |
---|---|---|
GPT-1 | 开山之作,小规模(117M) | LM + Transformer Decoder-only |
GPT-2 | 参数暴涨(1.5B),文本生成更强 | 训练数据多,通用性增强 |
GPT-3 | 175B,Few-shot learning | In-context learning 初现 |
GPT-3.5 | 更强推理、对话能力 | 微调 + RLHF |
GPT-4 | 多模态(图文)、更强 reasoning | 多专家 MoE 架构(猜测) |
(二)LLaMA 系列
LLaMA 模型的结构设计包含多个创新点,确保其在高效性和性能方面的提升。以下是
LLaMA 模型的几个主要特点:
基于原始 Transformer 架构,引入 RMSNorm、SwiGLU 激活函数和 RoPE 位置编码
1. 引入 RMSNorm(pre-Norm) 替代 layerNorm(Post-Norm)
- 计算复杂度降低:RMSNorm 省略了均值的计算步骤,减少计算复杂度
- 梯度传播稳定性:RMSNorm 仅只用 RMS 来处理标准化,减少了均值对梯度波动的影响,避免了数值不稳定的问题
2. 使用 siwGLU 替代 ReLU
- 非线性表达能力:swiGLU 通过 swish 的平滑特性和门控机制引入更强的非线性。而 ReLU 只是一种简单的线性分段函数,当输入负值时,梯度消失,导致神经元在训练过程中被抛弃。
- 信息传递与梯度流动:SwiGLU 不仅在正值区域保持较大的梯度,在负值区域也提供了较小但连续的梯度;而 ReLU 在负数区域导数为 0,有死神经元问题。
- 性能和泛化能力:SwiGLU 结合了 Swish 平滑激活函数特性和门控变化机制,增强了模型对复杂特征的学习能力,泛化能力强。ReLU 虽然简单高效,但是处理复杂问题可能捕捉不到丰富的特征,有局限性。
- 计算效率:ReLU 计算效率极高;swiGLU 计算复杂度高
3. RoPE
RoPE 不需要额外的位置嵌入,而是将位置信息直接融入到注意力机制的计算中。
核心思想是将位置信息潜入到 Q 和 K 的点积运算中,使得注意力机制包含了相对位置信息
关键信息:将位置信息用旋转的方式编码进词向量本身。
优点:
- 在处理长序列数据时表现出色,能够有效地捕捉长距离的位置依赖关系。
- 旋转不改变向量的模长,利于模型稳定性
- 非常适合多头注意力
缺点:
- 理解和解释其工作机制相对困难。
- 计算相对复杂,需要在复数空间中进行操作,增加了模型的计算量和实现难度
LLMA2:GQA
- GQA:相比传统多头注意力机制,显著减少计算和存储成本,提升推理效率
- 上下文窗口:4k
LLama3
-
超长的上下文窗口:上下文窗口达到 8k,显著提升了模型处理长文本和复杂上下文的能力
-
使用更高效的 TikToken 分词器,用 rust 进行底层深度优化(前两代都是基于 sentencePiece
-
将 GQA 应用到较小的模型
(2. 支持多语言
(3. 强化安全措施:LLama3 集成了 LLama Guard3 等工具
LLaMa 3.1
- 超长上下文窗口:128k
- 多语言:8 种
- 多模态能力
LLaMa 3.2
- 通过剪枝和知识蒸馏技术,优化了模型的性能
- 推出了轻量模型
LLaMa 3.3
通过监督微调和 RLHF
(三)GLM 系列
采用改进的 transformer Decoder,LN 和残差连接的重排、输出层优化、激活函数调整、位置编码
- LN 和残差连接的重排:对 LN(LayerNorm) 和残差连接的顺序进行重新设计(残差连接后置),旨在减少数值误差,能够提高稳定性和效果https://www.xiaohongshu.com/explore/66891d50000000001f0052a9?note_flow_source=wechat&xsec_token=CB6Qxq9eocI_nXJpRvhsv7txclEMjDvjqUFKi61Vx5R-4=
- 激活函数的调整:使用 GeLU 来替换 ReLU,GeLU 可以提供更平滑的梯度流动,从而提高模型的新来效率和性能
- 输出层的优化:使用单独的线性层 进行输出 token 的预测,简化了模型解码过程,提高计算效率
- 2D 位置编码:https://www.xiaohongshu.com/explore/6789a957000000001b00b8c3?note_flow_source=wechat&xsec_token=CBbhR-QMTdAJOrfASWDFCwiOpw7MSEPHBNU30fIcMSfQg=
【ChatGLM 与 ChatGPT 什么区别??】 https://www.bilibili.com/video/BV1S94y1G7NT/?share_source=copy_web
GLM 的创新:
- 2D 位置编码:绝对位置(序列中每个 token 的绝对位置)+相对位置(token 在片段内的相对位置)。(原文本位置 id+空白序列的 id:一个是字在句子当中的序列 id 号;一个是 这个字被遮蔽区段的区段号)
- 填空序列乱序
版本 | 特点 | |
---|---|---|
GLM-130B | 自回归 + Blank infilling | 类似 UL2 思路 |
ChatGLM-6B | 更轻量中文对话模型 | 支持中文指令微调 |
ChatGLM3 系列 | 多任务 / 多模态支持 | 推理、问答能力增强 |
🧠 技术点:
- 引入 PrefixLM + MaskedLM 混合训练。
- 支持中英双语、大量中文任务(更适合中文场景)。
- 增量预训练,善于 transfer。
(四)Qwen 系列
采用了旋转位置嵌入(RoPE)和无偏置的 RMSNorm 技术。
创新性地使用了闪光注意力(Flash Attention)来加速训练过程,
采用了 SwiGLU 激活函数以提高模型的性能。
https://blog.csdn.net/Soulrobert520/article/details/145609625
架构调整:
- RoPE 编码
- RMS 代替 LayerNorm
- 激活函数 SwiGLU
- GQA
- 在其他层去除 bias,在 QKV 的注意力机制层加入 bias
模型训练:
- FlashAttention
- AdamW 优化
- BFloat16 混合精度
Qwen3 相较于 qwen2 主要结构在 attention 模块:
- 引入对 Q 和 K 的 RMS Norm
- 滑动窗口的判断逻辑移到了初始化阶段
- attention 内部线性层的偏置项变为可配置
(五)DeepSpeek 系列
核心架构:MoE、基于 transformer 架构、MLA 机制
强化学习部分使用 deepseek 独家研发的 GRPO 框架、MTP(多 token 预测,将预测范围扩展到每个位置的多个未来 token)
deepspeek r1:针对特定任务
v3:通用
r1 的四个阶段:
(1)CoT 数据冷启动
(2)全场景强化学习
(3)拒绝采样和监督微调
(4)模型蒸馏:直接使用 deepspeek-r1 精选的 80 万样本对开源模型(如 Qwen、Llama)进行了微调,直接蒸馏的方式显著增强了较小模型的推理能力
https://www.xiaohongshu.com/explore/67a41a55000000002903e491?note_flow_source=wechat&xsec_token=CBn7UPhhRqR6lGsLrnueJs7sIbT5UmNwQqEruhsd84UXE=
v3 -> r1-zero:纯 RL,没有 SFT。阅读性差,不符合人类偏好
v3 -> r1 :
(0)首先对 v3 做 RL(GRPO 强化学习算法),得到了 r1-zero,但是可读性差的问题
(1)CoT 数据冷启动:使用 CoT 示例进行 SFT 的冷启动,增强推理能力
(2)RL 训练:对齐人类偏好
(3)拒绝采样和监督微调:纳入非推理能力,控制输出,增强通用能力
(全场景强化学习,对推理任务继续使用规则奖励,对与通用任务使用偏好奖励)
r1 -> r1-distill :
模型蒸馏:直接使用 deepspeek-r1 精选的 80 万样本对开源模型(使用 r1 的数据对 Qwen、Llama 进行知识蒸馏)(如 Qwen、Llama)进行了监督微调,直接蒸馏的方式显著增强了较小模型的推理能力
v3 和 r1 的区别:
两者都属于 MoE,
⭕ r1 的架构来自 v3,甚至可以说 r1 是具有推理能力的 v3
✔️ DeepSeek-V3 采用了多头潜注意力 ( MLA,对传统多头注意力机制的改进) 和 DeepSeekMoE 架构(对传统 MoE 架构的改进),无辅助损失的负载平衡策略等创新技术,基于 Token 的数据进行训练,在代码生成、分析等任务中表现出色。
✔️ 相比之下,DeepSeek-R1 采用了多阶段训练方法,加入了 SFT,而不是采用纯粹的强化学习,R1 从一小组精心挑选的示例数据(称为“冷启动数据”)进行有监督微调(SFT),再进入强化学习。这种方法改善了 DeepSeek-R1-Zero 的语言可读性和连贯性,同时在推理之外的测试中实现了更好的性能。
⭕ 在训练过程方面,DeepSeek 的 R1 是以 V3 为基础构建的(冷启动)。
✔️V3 的训练包括预训练(含基础预训练和上下文长度扩展)、后训练三个阶段。
.
✔️DeepSeek-R1 的训练过程分为 4 个阶段,包括使用数千高质量 CoT 示例进行 SFT 的冷启动,面向推理的强化学习,通过拒绝抽样的 SFT,面向全场景任务的强化学习与对齐。两个 SFT 阶段进行推理和非推理能力的能力植入,两个强化学习阶段旨在泛化学习推理模式并与人类偏好保持一致。
gpt 回答
架构 | Decoder-only | Encoder-Decoder | Prefix LM | MoE |
---|---|---|---|---|
GPT | ✅ | ❌ | ❌ | GPT-4(可能 MoE) |
LLaMA | ✅ | ❌ | ✅(LLaMA-3) | ✅(LLaMA-3 部分) |
GLM | ✅ + Prefix | ✅(GLM-130B) | ✅ | ❌ |
Qwen | ✅ | ❌ | ✅(提示词控制) | ❌ |
DeepSeek | ✅ | ✅(多模态部分) | ✅ | ✅(MoE 明确) |
适用场景建议对比
场景 | 推荐模型 | 原因 |
---|---|---|
中文通用问答 | ChatGLM、Qwen、DeepSeek | 中文训练占比高,指令能力好 |
多语言多模态 | GPT-4(商用)、DeepSeek-VL | 多模态、多语言支持强 |
代码生成 | DeepSeek-Coder、Qwen | 精调过大量代码,支持编程任务 |
小模型部署 | LLaMA、Qwen-1.8B、ChatGLM2-6B | 参数少,效果好,支持推理部署 |
教学/研究开源模型 | LLaMA2、Qwen、ChatGLM | 社区成熟,可二次开发 |
- GPT、LLaMA、GLM 系列在训练策略和架构上有哪些关键区别?
- 为什么 Qwen 模型在中文表现优?它的 tokenizer 有何优势?
- GLM 采用了 Prefix LM + blank filling 的预训练任务,这种方式的优势是什么?
- DeepSeek 使用 MoE 的好处是什么?其稀疏激活策略如何节省计算?
- 如何选择适合中文问答的模型?部署难度和效果对比如何?
- 请简要比较 LLaMA3 和 Qwen2 的架构和性能差异。
补充
零样本学习
模型在没有见过的类别或任务上,依然能够完成预测或者判断任务
- 语义嵌入
- 使用大规模预训练获取通用知识