当前位置：首页 > news >正文

GPT 模型详解：从原理到应用

news 2025/8/25 5:13:17

1. 引言

在自然语言处理（NLP）的发展历程中，GPT（Generative Pre-trained Transformer） 系列模型占据了里程碑式的地位。它基于 Transformer 架构，通过大规模语料的预训练与下游任务的微调，成功推动了语言生成和理解的边界。本文将从原理、架构、训练方式到应用场景，对 GPT 系列进行系统介绍。

2. GPT 的核心思想

GPT 的提出核心在于：

使用 Transformer 解码器（Decoder-only）架构，专注于自回归（Auto-regressive）建模。
采用 预训练 + 微调 两阶段方法：先在大规模文本上训练语言模型，再针对具体任务进行微调。
通过 自回归语言建模目标（Language Modeling Objective）实现对自然语言的强大建模能力。

3. GPT 架构

与 BERT 的 Encoder-only 架构不同，GPT 仅采用 Transformer 的 Decoder 部分。其核心组件如下：

3.1 输入嵌入

输入序列被映射为向量表示：

$X = \{x_1, x_2, \dots, x_T\}, \quad x_i \in \mathbb{R}^d$

嵌入由 词向量嵌入（Token Embedding） 与 位置嵌入（Positional Embedding） 相加而成。

3.2 掩码多头自注意力（Masked Multi-head Self-Attention）

GPT 的关键是使用 因果掩码（Causal Mask），确保模型在预测某个位置时，只能看到该位置之前的词：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V$

其中，掩码矩阵 MMM 定义为：

$M_{ij} = \begin{cases} 0, & j \leq i \\ -\infty, & j > i \end{cases}$

这样保证了 GPT 是 自回归语言模型。

3.3 前馈神经网络（Feed Forward Network, FFN）

每个 Transformer Block 中，注意力层后接一个前馈网络：

$\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$

3.4 残差连接与层归一化

GPT 使用 残差连接（Residual Connection） 和 层归一化（Layer Normalization） 来稳定训练：

$\text{LayerOutput} = \text{LayerNorm}(x + \text{Sublayer}(x))$

3.5 输出层

最终输出经过 softmax，形成对下一个词的概率分布：

$P(x_t | x_{<t}) = \text{softmax}(W h_t + b)$

4. GPT 的训练目标

GPT 的训练目标是 语言建模（Language Modeling Objective）：

$\mathcal{L} = - \sum_{t=1}^{T} \log P(x_t \mid x_{<t}; \theta)$

即最大化每个词在其上下文条件下的概率。

5. GPT 与 BERT 的对比

特性	BERT	GPT
架构	Transformer Encoder	Transformer Decoder
目标	Masked Language Model (MLM)	自回归语言模型 (LM)
特点	适合理解任务	擅长生成任务
训练方式	双向上下文	单向（从左到右）
应用	分类、问答、序列标注	文本生成、对话、写作