当前位置: 首页 > ai >正文

Bert学习笔记

1、Bert的嵌入层(输入表示)

WordPiece(子词分词方法)+ 绝对位置编码 + Segment Embedding

        WordPiece Embedding BERT 使⽤ WordPiece 作为分词⽅法,将单词划分为⼦词单元。
种处理⽅式既能处理未知词汇,⼜能提⾼模型的灵活性和泛化能⼒。例如,罕⻅或不规则单词会被
分成更常⻅的⼦词单位,进⽽能够在训练中更好地学习到词汇语义。

笔记见:Tokenizer训练方式和常见的分词模型-CSDN博客

        位置嵌⼊ (Position Embedding) :由于 BERT 只使⽤ Transformer 的编码器部分,并不依
赖于序列化结构(如 RNN 或 LSTM),因此它⽆法从输⼊序列中⾃然地获取位置信息。为了弥补这⼀点,BERT 通过位置嵌⼊为每个词汇添加了位置特征,使模型能够感知词汇在序列中的相对位
置。BERT 初始化了⼀个位置嵌⼊矩阵,并在训练过程中学习这些位置向量。

        段落嵌⼊ (Segment Embedding) :在 BERT 中,输⼊通常是两个句⼦拼接⽽成,特别是在句
⼦预测任务 (Next Sentence Prediction, NSP) 中。因此,BERT 为输⼊中的每个 token 添加⼀个
段落嵌⼊,⽤来区分句⼦ A 和句⼦ B,帮助模型更好地理解句⼦之间的关系。

        最终,BERT 的输⼊是这三种嵌⼊的求和:wordpiece embedding + position embedding +
segment embedding,这样能够同时捕捉词汇、位置、以及句⼦间的信息。

2、Bert的编码器层(Transformer的Encoder)

        BERT 的主要结构是基于 Transformer 的编码器部分,通过堆叠多层编码器来实现深度语义学
习。Transformer 编码器包含⼏个核⼼部分:multi-head-Attention + Layer Normalization + feedforword + Layer Normalization 叠加产⽣,BERT的每⼀层由⼀个这样的encoder单元构成。

3、预训练任务 (Pre-training Tasks)

BERT 在⼤规模语料上通过⾃监督学习进⾏了预训练,主要包括两个任务:

4、BERT模型特点

http://www.xdnf.cn/news/18986.html

相关文章:

  • HDFS 基本原理与操作流程
  • Python 【深度解析】线程与进程:操作系统中多任务的核心机制
  • 嵌入式第四十一天(数据库)
  • undefined和null
  • 【大模型14】Fine-tuning与大模型优化1
  • HunyuanVideo-Foley视频音效生成模型介绍与部署
  • 【完整源码+数据集+部署教程】胚胎发育阶段检测系统源码和数据集:改进yolo11-SCConv
  • Git 8 ,git 分支开发( 切换分支开发,并设置远程仓库默认分支 )
  • 机器视觉opencv教程(二):二值化、自适应二值化
  • 云计算学习笔记——逻辑卷管理、进程管理、用户提权RAID篇
  • 利用亮数据MCP服务器构建个性化学习情报官智能体
  • 第三章 Vue3 + Three.js 实战:用 OrbitControls 实现相机交互与 3D 立方体展示
  • 《应用密码学》——基础知识及协议结构模块(笔记)
  • 第2.1节:AI大模型之GPT系列(GPT-3、GPT-4、GPT-5)
  • 箭头函数和普通函数的区别
  • websocket的应用
  • 【物联网】什么是 DHT11(数字温湿度传感器)?
  • 为什么不能创建泛型数组?
  • 【计算机408计算机网络】第三章:自底向上五层模型之数据链路层
  • 轮廓周长,面积,外界圆,外界矩形近似轮廓和模板匹配和argparse模块实现代码参数的动态配置
  • STL 深度解析之vector【C++每日一学】
  • AI接管浏览器:Anthropic发布Claude for Chrome,是效率革命还是安全噩梦?
  • 科技大会用了煽情BGM
  • Linux网络基础1(一)之计算机网络背景
  • 解密 Vue 3 shallowRef:浅层响应式 vs 深度响应式的性能对决
  • 答案引擎优化(AEO)制胜策略:抢占AI Overviews流量红利
  • 【基于hyperledger fabric的教育证书管理系统】
  • Maven安装、IDEA集成Maven、依赖管理、单元测试
  • Pinterest自动化 “Pin“得高效
  • Oracle SQL 性能调优的基石:深入解读与驾驭执行计划