当前位置：首页 > backend >正文

预训练语言模型之：Encoder-only PLM

backend 2025/6/25 16:02:10

1. 基础架构：Transformer Encoder

所有模型的基石都是Transformer Encoder结构，其核心是自注意力机制：
$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
其中 $Q, K, V$ 分别表示查询、键和值向量， $d_k$ 为维度缩放因子。这种设计使模型能动态捕捉任意位置间的语义依赖。

2. BERT：双向预训练的开创者

2018年问世的BERT首次实现真正意义上的深度双向预训练，突破性创新包括：

掩码语言建模（MLM）
随机掩盖输入序列中15%的token，要求模型基于上下文预测被掩盖词：
$\ M ) \mathcal{L}_{\text{MLM}} = -\sum_{i \in M} \log P(x_i | x_{\backslash M})$
其中 $M$ 为掩盖位置集合。这种设计迫使模型学习全局上下文表征。

下一句预测（NSP）
输入两个句子A和B，预测B是否为A的后续句子：
$\mathcal{L}_{\text{NSP}} = -\log P(y | \text{segment}_A, \text{segment}_B)$
该任务使模型理解句子间逻辑关系。

输入表示创新
融合词嵌入、位置嵌入和段落嵌入：
$\text{Input} = \text{TokenEmbed} + \text{PositionEmbed} + \text{SegmentEmbed}$
这种三维编码能有效区分句子对任务。
在这里插入图片描述

BERT-base（110M参数）在GLUE基准上提升7.6%，证明双向预训练的优越性。

3. RoBERTa：BERT的极限优化

2019年提出的RoBERTa通过训练策略革新释放BERT架构潜力：

动态掩码机制
摒弃静态掩码，改为每个epoch动态生成掩码模式，提升数据利用率。

取消NSP任务
实验证明NSP会引入噪声，改为纯MLM训练后效果提升：
$\mathcal{L} = \mathcal{L}_{\text{MLM}}$

超参调优

批量大小从256增至8K
训练数据从16GB扩至160GB
序列长度从512扩展至更大

字节对编码优化
采用更细粒度的BPE分词，词汇表扩充至50K词符。

在SQuAD 2.0上，RoBERTa-large的F1值达89.8%，较BERT提升3.2%。

4. ALBERT：轻量化架构大师

ALBERT（2019）通过参数压缩技术解决BERT的内存瓶颈：

嵌入分解（Factorized Embedding）
将词嵌入矩阵分解为两个低秩矩阵：
$\times H \rightarrow V \times E + E \times H$
其中 $\ll H$ （通常 $E = 128, H = 768$ ），参数量减少80%。

跨层参数共享
所有Transformer层共享参数，使层数增加时参数不显著增长：
$\theta_{\text{layer}_i} = \theta_{\text{layer}_j}, \quad \forall i,j$

句子顺序预测（SOP）
替代NSP的新任务：判断两个连续句子是否被故意调换顺序：
$\mathcal{L}_{\text{SOP}} = -\log P(y|\text{顺序正确性})$
该任务更关注句间连贯性而非文档差异。

ALBERT-base仅12M参数，却在GLUE基准达到BERT-base 90%性能，推理速度提升1.7倍。

5. 核心对比与技术演进

维度	BERT	RoBERTa	ALBERT
预训练任务	MLM + NSP	MLM（动态）	MLM + SOP
参数效率	基准	相近	提升10倍
关键创新	双向建模	训练策略优化	参数共享
典型配置	Base: 110M	Large: 355M	Base: 12M
训练数据量	16GB	160GB+	16GB