当前位置：首页 > ai >正文

Bert学习笔记

ai 2025/8/30 7:13:46

1、Bert的嵌入层（输入表示）

WordPiece（子词分词方法）+ 绝对位置编码 + Segment Embedding

WordPiece Embedding ：BERT 使⽤ WordPiece 作为分词⽅法，将单词划分为⼦词单元。这

种处理⽅式既能处理未知词汇，⼜能提⾼模型的灵活性和泛化能⼒。例如，罕⻅或不规则单词会被

分成更常⻅的⼦词单位，进⽽能够在训练中更好地学习到词汇语义。

笔记见：Tokenizer训练方式和常见的分词模型-CSDN博客

位置嵌⼊ (Position Embedding) ：由于 BERT 只使⽤ Transformer 的编码器部分，并不依

赖于序列化结构（如 RNN 或 LSTM），因此它⽆法从输⼊序列中⾃然地获取位置信息。为了弥补这⼀点，BERT 通过位置嵌⼊为每个词汇添加了位置特征，使模型能够感知词汇在序列中的相对位

置。BERT 初始化了⼀个位置嵌⼊矩阵，并在训练过程中学习这些位置向量。

段落嵌⼊ (Segment Embedding) ：在 BERT 中，输⼊通常是两个句⼦拼接⽽成，特别是在句

⼦预测任务 (Next Sentence Prediction, NSP) 中。因此，BERT 为输⼊中的每个 token 添加⼀个

段落嵌⼊，⽤来区分句⼦ A 和句⼦ B，帮助模型更好地理解句⼦之间的关系。

最终，BERT 的输⼊是这三种嵌⼊的求和：wordpiece embedding + position embedding +

segment embedding，这样能够同时捕捉词汇、位置、以及句⼦间的信息。

2、Bert的编码器层（Transformer的Encoder）

BERT 的主要结构是基于 Transformer 的编码器部分，通过堆叠多层编码器来实现深度语义学

习。Transformer 编码器包含⼏个核⼼部分：multi-head-Attention + Layer Normalization + feedforword + Layer Normalization 叠加产⽣，BERT的每⼀层由⼀个这样的encoder单元构成。

3、预训练任务 (Pre-training Tasks)

BERT 在⼤规模语料上通过⾃监督学习进⾏了预训练，主要包括两个任务：

4、BERT模型特点

查看全文

http://www.xdnf.cn/news/18986.html

HDFS 基本原理与操作流程

Python 【深度解析】线程与进程：操作系统中多任务的核心机制

嵌入式第四十一天(数据库)

undefined和null

【大模型14】Fine-tuning与大模型优化1

HunyuanVideo-Foley视频音效生成模型介绍与部署

【完整源码+数据集+部署教程】胚胎发育阶段检测系统源码和数据集：改进yolo11-SCConv

Git 8 ，git 分支开发（切换分支开发，并设置远程仓库默认分支）

机器视觉opencv教程（二）：二值化、自适应二值化

云计算学习笔记——逻辑卷管理、进程管理、用户提权RAID篇

利用亮数据MCP服务器构建个性化学习情报官智能体

第三章 Vue3 + Three.js 实战：用 OrbitControls 实现相机交互与 3D 立方体展示

《应用密码学》——基础知识及协议结构模块（笔记）

第2.1节：AI大模型之GPT系列（GPT-3、GPT-4、GPT-5）

箭头函数和普通函数的区别

websocket的应用

【物联网】什么是 DHT11（数字温湿度传感器）？

为什么不能创建泛型数组?

【计算机408计算机网络】第三章：自底向上五层模型之数据链路层

轮廓周长，面积，外界圆，外界矩形近似轮廓和模板匹配和argparse模块实现代码参数的动态配置

STL 深度解析之vector【C++每日一学】

AI接管浏览器：Anthropic发布Claude for Chrome，是效率革命还是安全噩梦？

科技大会用了煽情BGM

Linux网络基础1（一）之计算机网络背景

解密 Vue 3 shallowRef：浅层响应式 vs 深度响应式的性能对决

答案引擎优化（AEO）制胜策略：抢占AI Overviews流量红利

【基于hyperledger fabric的教育证书管理系统】

Maven安装、IDEA集成Maven、依赖管理、单元测试

Pinterest自动化 “Pin“得高效

Oracle SQL 性能调优的基石：深入解读与驾驭执行计划

1、Bert的嵌入层（输入表示）

2、Bert的编码器层（Transformer的Encoder）

3、预训练任务 (Pre-training Tasks)

4、BERT模型特点

相关文章：