当前位置：首页 > web >正文

GPT-1 与 BERT 架构

web 2025/6/22 18:55:37

GPT-1

架构特点

仅解码器架构：摈弃了传统transformer中的编码器层，而是直接用解码器和自注意力，同时抛弃掉了交叉多头注意力层，自注意力通过mask来完成计算。
注意力块添加到12个，Attention的输出维数为762维，FeedForward的升维维数增加到2048维。总参数量达1.5亿(0.15B)。
可学习的位置编码：位置编码不再使用固定的公式计算，而是作为神经网络参数的一部分进行学习。

训练过程

无监督预训练

给定一个句子，无监督预训练做的就是根据之前的token预测下一个token，每个batch里面包含的是该句子的前若干个token组成的输入，(但是实际实现中不会真的去这样做切分，而是用注意力掩码来控制注意力的计算)。输出是对应的下一个token。

每一个token的注意力嵌入最后通过前馈网络都能生成下一个token的预测，最终根据每一个token预测计算交叉熵平均损失，从而得到这个输入的训练损失。

有监督微调

与预训练的方法类似，但是存在以下两个区别：

训练数据的内容是人为标注的，符合人们对模型的工具定位，要求模型必须按用户的需求回答
在计算损失部分，不会把prompt部分的自损失计算上，而只会计算人为标注的输出部分的每个token预测的损失平均值。

GPT-1的缺陷

GPT-1使用的Transformer Decoder是单向语言模型，提取信息的能力不如Bert,但生成文本的能力很强
GPT-1针对每一个下游任务都需要训练一个模型，工作量大

BERT

架构特点

BERT是仅编码器架构，所以BERT丧失了输出文本的能力
BERT在对输入进行嵌入时，除了常规的嵌入和位置编码，BERT还会对句子的序列头和序列为进行编码。

在此处，我们可以看到两个特殊的标识符[CLS]和[SEP],它们没有自身的语义，[CLS]表示序列的开头，[SEP]表示句子的结尾。BERT的输入只会有1 - 2 个序列。

如果输入是两个序列则第二个序列的段落编码为1，否则段落编码为0.

序列编码示例：

<CLS> my dog is cute <SEP> --> 0 0 0 0 0 0
<CLS> my dog is cute <SEP> he likes play ##ing <SEP> ---> 0 0 0 0 0 0 1 1 1 1 1

训练过程

BERT的预训练过程包括两个任务：

掩码语言模型（MLM）

以 15% 的概率随机将句子中的某个token替换为 [MASK] , 随后让模型预测原位置对应的token是什么，这样可以让模型更好的捕捉语义。

存在的问题：模型过于关注[MASK]这个token，但是下游任务中并不会出现[MASK],所以可能出现过拟合的现象。
解决方案：选择完token之后，有三种选择：
- 替换为[MASK] token
- 替换为其他随机token
- 不替换

由于模型不知道句子中对应的token是否是真的原token，所以模型会尝试根据句子的语义来找到原token。

邻接序列预测（NSP）

输入两个序列，由模型判断两个序列是否在语义上是相关联的，或者说后面的序列是否在语料中与前面的序列临近。

通过CLS中的向量信息来进行二分类，因为CLS本身没有语义信息，内部的信息只能是句子整体的信息。

举例：

Input1=[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]Label1=IsNextInput2=[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]Label2=NotNext

应用场景

句子分类
句子情感预测
语句问答
单句标注：标注句子中出现的每一个token的标签

缺陷

BERT失去了文本生成的能力，换来了更强的信息提取能力

查看全文

http://www.xdnf.cn/news/14683.html

MySQL之InnoDB存储引擎深度解析

软件工程期末试卷填空题版带答案（共40道）

【环境配置】在Ubuntu Server上安装5090 PyTorch环境

CVE-2024-6387漏洞、CVE-2025-26465漏洞、CVE-2025-26466漏洞一口气全解决

题解：P11501 [ROIR 2019] 探险队(Day 2)

【软考高级系统架构论文】论无服务器架构及其应用

在 `setup` 函数中使用 Vuex

通过 Lambda + API Gateway + 外部 API 实现。

Django数据库迁移

LLM：重构数字世界的“智能操作系统”

Java面试题025：一文深入了解数据库Redis（1）

Docker高级管理--容器通信技术与数据持久化

【ubuntu下小工具】Crontab定时任务进行数据备份和清理

【AGI】突破感知-决策边界：VLA-具身智能2.0

格兰泰勒棱镜透射光强曲线优化处理

嵌入式开发之嵌入式系统架构如何搭建？

Java ArrayList集合和HashSet集合详解

day38 打卡

基于Python、tkinter、sqlite3 和matplotlib的校园书店管理系统

机器学习流量识别(pytorch+NSL-KDD+多分类建模)

深入解析BERT：语言分类任务的革命性引擎

5G 浪潮：发展全景、困境突围与未来航向

目标检测新升级：用YOLOv8打造密度视频热力图可视化

Agent轻松通-P3：分析我们的Agent

LeetCode 680.验证回文串 II

PowerShell批量处理文件名称/内容的修改

GPT-1

架构特点

训练过程

无监督预训练

有监督微调

GPT-1的缺陷

BERT

架构特点

训练过程

掩码语言模型（MLM）

邻接序列预测（NSP）

应用场景

缺陷

相关文章：