当前位置: 首页 > ds >正文

从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

🔥从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

“为什么所有大模型(LLM)都长一个样?”
因为它们都有一个共同的“基因”——Decoder-Only 架构

在前面两节中,我们学习了:

  • BERT:Encoder-Only,擅长“理解语言”
  • T5:Encoder-Decoder,统一“理解+生成”

而今天,我们要进入真正引爆 AI 浪潮的主角世界——

🚀 Decoder-Only 模型,也就是当前所有大语言模型(LLM)的“母体”。

GPT-1ChatGPT,从 LLaMAGLM,它们虽然名字不同,但都基于同一个核心架构:仅由 Decoder 堆叠而成的 Transformer

本文将带你深入理解:

  1. Decoder-Only 是什么?
  2. GPT 系列如何一步步引爆 LLM 时代?
  3. LLaMA 和 GLM 又做了哪些关键改进?

准备好了吗?我们出发!


🧬 一、什么是 Decoder-Only 架构?

在原始 Transformer 中,Decoder 本是用于“生成目标语言”的部分,它包含两个注意力机制:

  1. Masked Self-Attention:只能看到前面的 token(防止“偷看答案”)
  2. Encoder-Decoder Attention:接收 Encoder 的语义信息

上图为Decoder-Only 模型的模型架构图,Decoder-Only 模型(如 GPT)做了一个大胆的决定:

❌ 去掉 Encoder
❌ 去掉 Encoder-Decoder Attention
✅ 只保留 Masked Self-Attention,自己理解、自己生成

输入文本 → Tokenizer → Embedding → N 层 Decoder → 输出文本

这种架构天生适合 自回归生成(Autoregressive Generation)

  • 输入:“今天天气”
  • 模型预测:“好”
  • 接着输入:“今天天气好”,预测下一个词……
  • 如此循环,生成完整句子。

✅ 优势:简单、高效、可无限生成文本
❌ 缺点:无法双向理解(但大模型通过“体量”弥补了这一点)


🚀 二、GPT:Decoder-Only 的开山鼻祖

1. 模型架构:Pre-LN + Masked Self-Attention

GPT 的结构与 BERT 类似,但关键区别在于:

组件GPT 做法
位置编码使用 Transformer 原始的 Sinusoidal 编码(非可学习)
LayerNorm采用 Pre-Norm:先归一化再进注意力(更稳定)
注意力机制仅保留 Masked Self-Attention,无 Encoder 交互
MLP 层早期用卷积,后期改用全连接

🔍 Pre-Norm 是什么?
在残差连接前做 LayerNorm,能有效缓解梯度消失,适合深层网络。


2. 预训练任务:CLM(因果语言模型)

GPT 使用 CLM(Causal Language Modeling),也就是:

根据前面的词,预测下一个词

例如:

  • 输入:The cat sat on the
  • 输出:mat

这本质上是 N-gram 的神经网络升级版,完全契合人类语言生成习惯。

✅ 优势:

  • 不需要标注数据,直接用文本训练
  • 与下游生成任务(如写作、对话)完全一致

3. GPT 系列的“力大砖飞”之路

模型参数量隐藏层层数预训练数据关键突破
GPT-10.12B768125GB首提“预训练+微调”
GPT-21.5B16004840GB支持 zero-shot
GPT-3175B1228896570GBfew-shot + 涌现能力
📌 GPT-3 的三大革命:
  1. 参数爆炸:1750亿参数,首次展现“涌现能力”
  2. 上下文学习(In-context Learning):无需微调,只需给几个例子(few-shot)就能学会新任务
  3. 稀疏注意力:应对长文本,提升训练效率

💡 举例:情感分类的 few-shot prompt

判断情感:'这真是个绝佳机会' → 正向(1)
示例:'你太棒了' → 1;'太糟糕了' → 0;'好主意' → 1
问题:'这真是个绝佳机会' → ?

这种“提示即编程”的方式,直接催生了 Prompt Engineering 的兴起。


🐫 三、LLaMA:开源 LLM 的标杆

如果说 GPT 是闭源王者,那 LLaMA 就是开源世界的“平民英雄”。

Meta 从 2023 年起陆续发布 LLaMA-1/2/3,成为当前开源 LLM 的事实标准架构

1. 模型架构:GPT 的“优化版”

LLaMA 整体沿用 GPT 架构,但做了多项关键改进:

改进点说明
RoPE 位置编码旋转式位置编码,支持超长上下文(8K~32K)
RMSNorm替代 LayerNorm,训练更稳定
SwiGLU 激活函数比 ReLU/GELU 更强的非线性能力
GQA(分组查询注意力)减少 KV Cache,提升推理速度

🔍 GQA 是什么?
将多个注意力头共享 KV 向量,平衡 MQA(单KV)和 MHA(全KV)的性能与效率。


2. LLaMA 系列发展史

版本参数上下文训练数据亮点
LLaMA-17B~65B2K1T token开源,引爆社区
LLaMA-27B~70B4K2T token支持对话微调
LLaMA-38B~70B8K15T token128K词表,接近GPT-4

✅ LLaMA-3 的 128K 词表大幅提升多语言和代码能力。


🇨🇳 四、GLM:中文 LLM 的独特探索

由智谱 AI(Zhipu AI)开发的 GLM 系列,是中国最早开源的大模型之一。

1. 模型架构:Post-Norm + 简洁设计

GLM 初期尝试了一条不同于 GPT 的路径:

特点说明
Post-Norm残差连接后归一化,增强鲁棒性
单层输出头减少参数,提升稳定性
GELU 激活函数平滑非线性,优于 ReLU

⚠️ 注意:主流模型多用 Pre-Norm,但 GLM 认为 Post-Norm 更稳定。


2. 预训练任务:GLM(空白填充)

GLM 的核心创新是 GLM 预训练任务——结合 MLM 和 CLM:

  • 随机遮蔽连续一段文本
  • 模型需从上下文预测这段文本,并按顺序生成其中每个 token

例如:

  • 输入:I <MASK> because you <MASK>
  • 输出:love you 和 are a wonderful person

✅ 优势:兼顾理解与生成
❌ 劣势:训练复杂,大模型时代被 CLM 取代

📌 现状:从 ChatGLM2 起,GLM 系列也回归 CLM + GPT 架构。


3. GLM 家族发展

模型参数上下文关键能力
ChatGLM-6B6B2K首个开源中文 LLM
ChatGLM2-6B6B32K支持长文本
ChatGLM3-6B6B32K支持函数调用、代码解释器
GLM-4未开源128K英文性能对标 GPT-4
GLM-4-9B9B8K开源轻量版,支持工具调用

💡 ChatGLM3 开始支持 Agent 开发,可调用工具、执行代码,迈向 AI 自主行动。


🆚 五、三大模型架构对比

模型架构预训练任务是否开源代表能力
GPTDecoder-OnlyCLM❌ 闭源通用生成、few-shot
LLaMADecoder-OnlyCLM✅ 开源高效、可定制
GLMDecoder-OnlyGLM → CLM✅ 开源中文强、支持 Agent

🌟 六、Decoder-Only 为何能统治 LLM 时代?

尽管 BERT 和 T5 在 NLU 任务上曾领先,但 Decoder-Only 最终胜出,原因如下:

  1. 生成即王道
    大模型的核心价值是“对话”“写作”“编程”,生成能力比理解更重要。

  2. 任务统一性
    所有任务都可以转化为“输入提示 → 输出答案”,无需复杂微调。

  3. 涌现能力(Emergent Ability)
    当模型足够大时,CLM 训练的模型反而在理解任务上超越 BERT。

  4. 工程友好
    架构简单,易于分布式训练和推理优化。


📣 结语:LLM 的未来,始于 Decoder-Only

从 GPT-1 的默默无闻,到 GPT-3 的横空出世,再到 LLaMA 和 GLM 的开源繁荣,

Decoder-Only 架构 用十年时间证明了:

“简单、专注、规模” 才是通向 AGI 的最短路径。

如今,几乎所有主流 LLM(包括 Qwen、Baichuan、Yi 等)都基于这一架构。

🔁 所以,要理解大模型,你必须先读懂 GPT。

📚 参考资料:

  • 《Language Models are Few-Shot Learners》(GPT-3)
  • 《LLaMA: Open and Efficient Foundation Language Models》
  • 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》
  • HuggingFace、Meta AI、Zhipu AI 官方文档
  • https://github.com/datawhalechina/happy-llm
http://www.xdnf.cn/news/20096.html

相关文章:

  • Loopback for Mac:一键打造虚拟音频矩阵,实现跨应用音频自由流转
  • 用Markdown写自动化用例:Gauge实战全攻略!
  • AV1 OBU Frame解析
  • 系统编程day2-系统调用
  • 游戏世代网页官网入口 - 游戏历史记录和统计工具
  • Guidelines for using Adaptive Platform interfaces
  • 2025年互联网行业专业认证发展路径分析
  • GO学习记录九——数据库触发器的使用+redis缓存策略
  • 第4章 存储系统
  • GitLab Milestones 深度解析:选型、竞品、成本与资源消耗
  • 视频打不开怎么办?教你一键修改默认打开方式
  • zynq 开发系列 新手入门:GPIO 连接 MIO 控制 LED 闪烁(SDK 端代码编写详解)
  • React实现音频文件上传与试听
  • 服务器安装vnc服务端
  • jenkins安装和配置流程
  • 深度学习——CNN实例手写数字
  • 归一化的定义与作用
  • ip地址是硬件自带的还是被分配的
  • 《单链表经典问题全解析:5 大核心题型(移除元素 / 反转 / 找中点 / 合并 / 回文判断)实现与详解》
  • 面试高频问题总结
  • 基于 Socket 和多线程的简单 Echo 服务器实现
  • [UT]记录uvm_config_db的错误:get中的第二个参数设置为this
  • 小企业环境-火山方舟和扣子
  • 【FPGA】DDS信号发生器
  • 【C++】Vector核心实现:类设计到迭代器陷阱
  • < 自用文 主机 USC 记录:> 发现正在被攻击 后的自救
  • 天然苏打水生产的原水抽取与三重除菌的3D模拟开发实战
  • AI大模型对决:谁是最强智能?
  • MySQL 清空表实战:TRUNCATE 与 DELETE 的核心差异与正确用法
  • 小白成长之路-develops -jenkins部署lnmp平台