当前位置: 首页 > news >正文

5.1经典架构

一、大模型架构

了解常见的大模型架构,如 GPT 系列、LLaMA 系列、GLM 系列、Qwen 系列、DeepSpeek 系列等。对比他们之间的差异,以及每个模型演变过程

模型主要机构技术路线特点中文适配情况
GPT 系列OpenAIDecoder-only对话能力强、商业化领先英文为主,GPT-4 支持多语言
LLaMA 系列MetaDecoder-only开源标杆,轻量高效LLaMA2/3 中文欠缺,Alpaca、BLOOM-Chinese 弥补
GLM 系列清华智源Encoder-Decoder 混合 / Autoregressive更强的多任务能力,支持 blank filling✅ 强化中文训练
Qwen 系列阿里达摩院GPT 风格、Decoder-only中英文能力强,tokenizer 优秀✅ 强中文优化
DeepSeek 系列字节跳动GPT-like + 代码优化通用与代码兼顾✅ 优秀中文与多模态版本

(一)GPT 系列

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

架构

1.总体架构:
GPT 是一个大型的 Transformer 解码器网络,旨在处理序列到序列的生成任务。它采用了多层 Transformer 解码器堆叠而成,以捕捉输入文本的长期依赖关系,并生成连贯的文本输出。

2.输入层:
●Tokenization: 文本输入首先经过分词处理,将文本转换为 Token 序列。这通常涉及将文本分割成单词、子词或其他基本单位。
●Embedding:分词后的 Token 序 列通过 Embedding 层转换为固定维度的向量表示。Embedding 层将每个 Token 映射到一个高维空间中,捕捉其语义信息。

  1. Transformer 解码器堆叠:
    GPT 的核心是多个 Transformer 解码器的堆叠。每个解码器都包含以下几个关键组件:
    ● 自注意力机制:自注意力机制允许模型在处理序列时关注不同位置的 Token。通过计算 Token 之间的注意力权重,模型能够捕捉输入序列中的依赖关系,并为每
    个位置生成上下文相关的表示。
    ● 前馈神经网络:除了自注意力机制外,每个解码器还包含一个前馈神经网络。该网络对自注意力机制输出进行进一步转换,以提取更高级别的特征。FFN 用于对每个位置的表示进行独立的非线性变换
    ● 残差连接和层归一化:为了提高模型的训练稳定性和效果,每个解码器都使用了残差连接和层归一化。这些技术有助于缓解梯度消失和梯度爆炸问题,并加速模型的收敛

4.输出层:
经过多个 Transformer 解码器堆叠处理后,最后一层的输出被用作生成文本的依据。对于每个位置,模型预测下一个 Token 的概率分布。这通常通过一个线性层和一个Softmax 激活函数来实现,将解码器的输出转换为概率值

5.预训练和微调:
GPT 架构的训练过程分为两个阶段:预训练和微调:
● 预训练:在预训练阶段,模型使用大规模的无标注文本数据进行训练,以学习语言的统计规律和生成能力。通过自回归的方式,模型预测输入序列中的下一个 Token,并最大化在训练数据上的似然性。
● 微调:在微调阶段,模型使用特定任务的标注数据进行训练,以适应各种 NLP 任务。通过在模型的顶部添加适当的输出层,并使用任务特定的目标函数进行训练,模型能够学习将输入文本映射到特定任务的输出空间。

演进

GPT-1:首次引入 预训练+微调
GPT-2:去掉了 1 阶段的有监督微调,在多任务上实现零样本学习(1.5B)
GPT-3:175B,1750 亿。强调少样本学习(few-shot learning)用户只需提供少量示例就可以引导模型完成复杂任务
GPT-3.5:RLHF
GPT-4:支持多模态(图文)输入

版本特点技术演化
GPT-1开山之作,小规模(117M)LM + Transformer Decoder-only
GPT-2参数暴涨(1.5B),文本生成更强训练数据多,通用性增强
GPT-3175B,Few-shot learningIn-context learning 初现
GPT-3.5更强推理、对话能力微调 + RLHF
GPT-4多模态(图文)、更强 reasoning多专家 MoE 架构(猜测)

(二)LLaMA 系列

LLaMA 模型的结构设计包含多个创新点,确保其在高效性和性能方面的提升。以下是
LLaMA 模型的几个主要特点:
基于原始 Transformer 架构,引入 RMSNorm、SwiGLU 激活函数和 RoPE 位置编码

1. 引入 RMSNorm(pre-Norm) 替代 layerNorm(Post-Norm)

  1. 计算复杂度降低:RMSNorm 省略了均值的计算步骤,减少计算复杂度
  2. 梯度传播稳定性:RMSNorm 仅只用 RMS 来处理标准化,减少了均值对梯度波动的影响,避免了数值不稳定的问题

2. 使用 siwGLU 替代 ReLU

  1. 非线性表达能力:swiGLU 通过 swish 的平滑特性和门控机制引入更强的非线性。而 ReLU 只是一种简单的线性分段函数,当输入负值时,梯度消失,导致神经元在训练过程中被抛弃。
  2. 信息传递与梯度流动:SwiGLU 不仅在正值区域保持较大的梯度,在负值区域也提供了较小但连续的梯度;而 ReLU 在负数区域导数为 0,有死神经元问题。
  3. 性能和泛化能力:SwiGLU 结合了 Swish 平滑激活函数特性和门控变化机制,增强了模型对复杂特征的学习能力,泛化能力强。ReLU 虽然简单高效,但是处理复杂问题可能捕捉不到丰富的特征,有局限性。
  4. 计算效率:ReLU 计算效率极高;swiGLU 计算复杂度高

3. RoPE

RoPE 不需要额外的位置嵌入,而是将位置信息直接融入到注意力机制的计算中。
核心思想是将位置信息潜入到 Q 和 K 的点积运算中,使得注意力机制包含了相对位置信息
关键信息:将位置信息用旋转的方式编码进词向量本身。
优点

  1. 在处理长序列数据时表现出色,能够有效地捕捉长距离的位置依赖关系。
  2. 旋转不改变向量的模长,利于模型稳定性
  3. 非常适合多头注意力

缺点

  1. 理解和解释其工作机制相对困难。
  2. 计算相对复杂,需要在复数空间中进行操作,增加了模型的计算量和实现难度

LLMA2:GQA

  1. GQA:相比传统多头注意力机制,显著减少计算和存储成本,提升推理效率
  2. 上下文窗口:4k

LLama3

  1. 超长的上下文窗口:上下文窗口达到 8k,显著提升了模型处理长文本和复杂上下文的能力

  2. 使用更高效的 TikToken 分词器,用 rust 进行底层深度优化(前两代都是基于 sentencePiece

  3. 将 GQA 应用到较小的模型

    (2. 支持多语言
    (3. 强化安全措施:LLama3 集成了 LLama Guard3 等工具

LLaMa 3.1

  1. 超长上下文窗口:128k
  2. 多语言:8 种
  3. 多模态能力

LLaMa 3.2

  1. 通过剪枝和知识蒸馏技术,优化了模型的性能
  2. 推出了轻量模型

LLaMa 3.3

通过监督微调和 RLHF

(三)GLM 系列

采用改进的 transformer Decoder,LN 和残差连接的重排、输出层优化、激活函数调整、位置编码

  1. LN 和残差连接的重排:对 LN(LayerNorm) 和残差连接的顺序进行重新设计(残差连接后置),旨在减少数值误差,能够提高稳定性和效果https://www.xiaohongshu.com/explore/66891d50000000001f0052a9?note_flow_source=wechat&xsec_token=CB6Qxq9eocI_nXJpRvhsv7txclEMjDvjqUFKi61Vx5R-4=
  2. 激活函数的调整:使用 GeLU 来替换 ReLU,GeLU 可以提供更平滑的梯度流动,从而提高模型的新来效率和性能
  3. 输出层的优化:使用单独的线性层 进行输出 token 的预测,简化了模型解码过程,提高计算效率
  4. 2D 位置编码:https://www.xiaohongshu.com/explore/6789a957000000001b00b8c3?note_flow_source=wechat&xsec_token=CBbhR-QMTdAJOrfASWDFCwiOpw7MSEPHBNU30fIcMSfQg=

【ChatGLM 与 ChatGPT 什么区别??】 https://www.bilibili.com/video/BV1S94y1G7NT/?share_source=copy_web

GLM 的创新:

  1. 2D 位置编码:绝对位置(序列中每个 token 的绝对位置)+相对位置(token 在片段内的相对位置)。(原文本位置 id+空白序列的 id:一个是字在句子当中的序列 id 号;一个是 这个字被遮蔽区段的区段号)
  2. 填空序列乱序
版本特点
GLM-130B自回归 + Blank infilling类似 UL2 思路
ChatGLM-6B更轻量中文对话模型支持中文指令微调
ChatGLM3 系列多任务 / 多模态支持推理、问答能力增强

🧠 技术点:

  • 引入 PrefixLM + MaskedLM 混合训练。
  • 支持中英双语、大量中文任务(更适合中文场景)。
  • 增量预训练,善于 transfer。

(四)Qwen 系列

采用了旋转位置嵌入(RoPE)和无偏置的 RMSNorm 技术。
创新性地使用了闪光注意力(Flash Attention)来加速训练过程,
采用了 SwiGLU 激活函数以提高模型的性能。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传https://blog.csdn.net/Soulrobert520/article/details/145609625

架构调整:

  1. RoPE 编码
  2. RMS 代替 LayerNorm
  3. 激活函数 SwiGLU
  4. GQA
  5. 在其他层去除 bias,在 QKV 的注意力机制层加入 bias

模型训练:

  1. FlashAttention
  2. AdamW 优化
  3. BFloat16 混合精度

Qwen3 相较于 qwen2 主要结构在 attention 模块:

  • 引入对 Q 和 K 的 RMS Norm
  • 滑动窗口的判断逻辑移到了初始化阶段
  • attention 内部线性层的偏置项变为可配置
    外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(五)DeepSpeek 系列

核心架构:MoE、基于 transformer 架构、MLA 机制
强化学习部分使用 deepseek 独家研发的 GRPO 框架MTP(多 token 预测,将预测范围扩展到每个位置的多个未来 token)

deepspeek r1:针对特定任务
v3:通用

r1 的四个阶段:
(1)CoT 数据冷启动
(2)全场景强化学习
(3)拒绝采样和监督微调
(4)模型蒸馏:直接使用 deepspeek-r1 精选的 80 万样本对开源模型(如 Qwen、Llama)进行了微调,直接蒸馏的方式显著增强了较小模型的推理能力

https://www.xiaohongshu.com/explore/67a41a55000000002903e491?note_flow_source=wechat&xsec_token=CBn7UPhhRqR6lGsLrnueJs7sIbT5UmNwQqEruhsd84UXE=
v3 -> r1-zero:纯 RL,没有 SFT。阅读性差,不符合人类偏好

v3 -> r1 :
(0)首先对 v3 做 RL(GRPO 强化学习算法),得到了 r1-zero,但是可读性差的问题
(1)CoT 数据冷启动:使用 CoT 示例进行 SFT 的冷启动,增强推理能力
(2)RL 训练:对齐人类偏好
(3)拒绝采样和监督微调:纳入非推理能力,控制输出,增强通用能力
(全场景强化学习,对推理任务继续使用规则奖励,对与通用任务使用偏好奖励

r1 -> r1-distill :
模型蒸馏:直接使用 deepspeek-r1 精选的 80 万样本对开源模型(使用 r1 的数据对 Qwen、Llama 进行知识蒸馏)(如 Qwen、Llama)进行了监督微调,直接蒸馏的方式显著增强了较小模型的推理能力
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
v3 和 r1 的区别
两者都属于 MoE,
⭕ r1 的架构来自 v3,甚至可以说 r1 是具有推理能力的 v3
✔️ DeepSeek-V3 采用了多头潜注意力 ( MLA,对传统多头注意力机制的改进) 和 DeepSeekMoE 架构(对传统 MoE 架构的改进),无辅助损失的负载平衡策略等创新技术,基于 Token 的数据进行训练,在代码生成、分析等任务中表现出色。

✔️ 相比之下,DeepSeek-R1 采用了多阶段训练方法,加入了 SFT,而不是采用纯粹的强化学习,R1 从一小组精心挑选的示例数据(称为“冷启动数据”)进行有监督微调(SFT),再进入强化学习。这种方法改善了 DeepSeek-R1-Zero 的语言可读性和连贯性,同时在推理之外的测试中实现了更好的性能。

⭕ 在训练过程方面,DeepSeek 的 R1 是以 V3 为基础构建的(冷启动)。

✔️V3 的训练包括预训练(含基础预训练和上下文长度扩展)、后训练三个阶段。
.
✔️DeepSeek-R1 的训练过程分为 4 个阶段,包括使用数千高质量 CoT 示例进行 SFT 的冷启动,面向推理的强化学习,通过拒绝抽样的 SFT,面向全场景任务的强化学习与对齐。两个 SFT 阶段进行推理和非推理能力的能力植入,两个强化学习阶段旨在泛化学习推理模式并与人类偏好保持一致。

gpt 回答

架构Decoder-onlyEncoder-DecoderPrefix LMMoE
GPTGPT-4(可能 MoE)
LLaMA✅(LLaMA-3)✅(LLaMA-3 部分)
GLM✅ + Prefix✅(GLM-130B)
Qwen✅(提示词控制)
DeepSeek✅(多模态部分)✅(MoE 明确)

适用场景建议对比

场景推荐模型原因
中文通用问答ChatGLM、Qwen、DeepSeek中文训练占比高,指令能力好
多语言多模态GPT-4(商用)、DeepSeek-VL多模态、多语言支持强
代码生成DeepSeek-Coder、Qwen精调过大量代码,支持编程任务
小模型部署LLaMA、Qwen-1.8B、ChatGLM2-6B参数少,效果好,支持推理部署
教学/研究开源模型LLaMA2、Qwen、ChatGLM社区成熟,可二次开发
  1. GPT、LLaMA、GLM 系列在训练策略和架构上有哪些关键区别?
  2. 为什么 Qwen 模型在中文表现优?它的 tokenizer 有何优势?
  3. GLM 采用了 Prefix LM + blank filling 的预训练任务,这种方式的优势是什么?
  4. DeepSeek 使用 MoE 的好处是什么?其稀疏激活策略如何节省计算?
  5. 如何选择适合中文问答的模型?部署难度和效果对比如何?
  6. 请简要比较 LLaMA3 和 Qwen2 的架构和性能差异。

补充

零样本学习

模型在没有见过的类别或任务上,依然能够完成预测或者判断任务

  1. 语义嵌入
  2. 使用大规模预训练获取通用知识
http://www.xdnf.cn/news/309853.html

相关文章:

  • 论微服务架构设计及应用
  • ReMax:将贪婪采样的 reward 作为 baseline
  • Java并发编程-锁(一)
  • miniqtm 模拟账号和实盘账号登陆对数据获取有什么影响
  • vLLM 推理 Qwen2.5-VL-7B 图像
  • 机器人系统设置
  • 小型纯电动汽车轮毂电机及大角度转向系统的数字化设计
  • 卷积神经网络基础(五)
  • 大语言模型(LLM)领域,有几项显著的进展和技术突破
  • JavaSE核心知识点01基础语法01-04(数组)
  • RPM打包格式spec文件设计原理与关键特性说明
  • Python cv2滤波与模糊处理:从原理到实战
  • Matlab/Simulink的一些功能用法笔记(4)
  • AI教你学VUE——Deepseek版
  • 从入门到登峰-嵌入式Tracker定位算法全景之旅 Part 8 |产品化与运维:批量标定、误差监控、OTA 升级与安全防护
  • CSS Border 三角形阴影与多重边框的制作
  • Beetle 树莓派RP2350 - 桌面时钟摆件
  • 内存种类详解
  • tinyrenderer笔记(Shadow Mapping)
  • 方案精读:2024版基于华为IPD与质量管理体系融合的研发质量管理【附全文阅读】
  • AOAAO:算术优化算法与Aquila Optimizer的混合算法
  • langchain4j整合springboot
  • OpenCV的floodFill(漫水填充)分割
  • 静态NAT
  • C++23 新利器:深入解析栈踪迹库 (P0881R7)
  • HTTP协议网络读卡器通讯报文
  • 无法解析导入“pybulletgym”
  • C# System.Text.Json实现高效JSON序列化与反序列化
  • 基于Java多线程实现简单图片下载
  • SLAM算法工程师面经大全:2025年面试真题解析与实战指南