当前位置：首页 > news >正文

BERT模型讲解

news 2025/7/4 12:00:11

BERT的模型架构

BERT: Bidirectional Encoder Representations from Transformers

BERT这个名称直接反映了：它是一个基于Transformer编码器的双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说：

BERT-Base：堆叠了12层Encoder，12个注意力头，768维隐藏层，参数量约110M
BERT-Large：堆叠了24层Encoder，16个注意力头，1024维隐藏层，参数量约340M

BERT的输入表示

BERT的输入表示是其独特之处，包含三部分：

Token Embedding：词元嵌入，将输入的单词转换为向量表示
Segment Embedding：段落嵌入，用于区分输入中的不同句子
Position Embedding：位置嵌入，编码词元在序列中的位置信息

与原始Transformer使用三角函数计算的Position Encoding不同，BERT的Position Embedding是需要学习的参数。

BERT预训练方法

同时进行两项无监督任务的训练来学习语言，即：

掩码语言模型MLM
下一句预测NSP

接下来我们展开讲解两种任务

掩码语言模型（Masked Language Model, MLM）

即完形填空从而让大模型可以学到上下文。具体做法是（论文中并没讲述为何用这个比例，可能是因为这个比例效果更佳）：

随机选择输入tokens中的15%
对于被选中的tokens：
策略1- 80%的情况下，将其替换为特殊标记[MASK]
策略2- 10%的情况下，将其替换为随机词
策略3- 10%的情况下，保持不变

举例：我爱大语言模型
在这里插入图片描述

下一句预测（Next Sentence Prediction, NSP）

NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是，这也就是转为了二分类任务。

举例：我爱大语言模型
在这里插入图片描述

查看全文

http://www.xdnf.cn/news/368533.html

【C语言指针超详解(三)】--数组名的理解，一维数组传参的本质，冒泡排序，二级指针，指针数组

开平机：技术深水区与产业变革的融合突破

spring ai alibaba ChatClient 获取大模型返回内容的方式以及使用场景

什么是 HEIC 格式？如何在电脑上查看HEIC格式的图像？

软件开发的图表类型

RAG优化知识库检索（1）：基础概念与架构

系统的从零开始学习电子的相关知识，该如何规划？

高效处理CR

耀圣-气动带刮刀硬密封法兰球阀：攻克颗粒高粘度介质的自清洁 “利器”

（八）Java面向对象编程三大特性：封装、继承与多态性详解

Linux 系统安装Minio详细教程

音视频同步知识

今日行情明日机会——20250509

Codeforces Round 1023 (Div. 2)

反向沙箱介绍

麒麟系统使用-个性化设置

库室指静脉人脸门禁机 LK-BM-S10C/JR

CDGP|数据治理怎么带动企业高速发展?

革新锅炉厂智能控制——Ethernet IP转CANopen协议网关的工业互联新方案

【UltralyticsYolo11图像分类完整项目-04】代码重构

出现在‘{‘的段错误

【RAG官方大神笔记】检索增强生成 (RAG)：Python AI 教程的详细介绍

【Qwen3_ 4b lora xinli】

深入理解大模型分片优化：Late Chunking 技术解析

A2A与MCP定义下，User，Agent，api（tool）间的交互流程图

Agent-S: 操作计算机的智能代理框架

BERT的模型架构

BERT的输入表示

BERT预训练方法

掩码语言模型（Masked Language Model, MLM）

下一句预测（Next Sentence Prediction, NSP）

相关文章：