当前位置: 首页 > news >正文

BERT模型讲解

BERT的模型架构

BERT: Bidirectional Encoder Representations from Transformers

BERT这个名称直接反映了:它是一个基于Transformer编码器双向表示模型。BERT通过堆叠多层编码器来构建深度模型。举例来说:

  • BERT-Base:堆叠了12层Encoder,12个注意力头,768维隐藏层,参数量约110M
  • BERT-Large:堆叠了24层Encoder,16个注意力头,1024维隐藏层,参数量约340M
    在这里插入图片描述

BERT的输入表示

BERT的输入表示是其独特之处,包含三部分:

  1. Token Embedding:词元嵌入,将输入的单词转换为向量表示
  2. Segment Embedding:段落嵌入,用于区分输入中的不同句子
  3. Position Embedding:位置嵌入,编码词元在序列中的位置信息

与原始Transformer使用三角函数计算的Position Encoding不同,BERT的Position Embedding是需要学习的参数。

BERT预训练方法

同时进行两项无监督任务的训练来学习语言,即:

  1. 掩码语言模型MLM
  2. 下一句预测NSP

接下来我们展开讲解两种任务

掩码语言模型(Masked Language Model, MLM)

即完形填空从而让大模型可以学到上下文。具体做法是(论文中并没讲述为何用这个比例,可能是因为这个比例效果更佳):

  1. 随机选择输入tokens中的15%
  2. 对于被选中的tokens:
    策略1- 80%的情况下,将其替换为特殊标记[MASK]
    策略2- 10%的情况下,将其替换为随机词
    策略3- 10%的情况下,保持不变

举例:我爱大语言模型
在这里插入图片描述

下一句预测(Next Sentence Prediction, NSP)

NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是,这也就是转为了二分类任务。


举例:我爱大语言模型
在这里插入图片描述

http://www.xdnf.cn/news/368533.html

相关文章:

  • 【C语言指针超详解(三)】--数组名的理解,一维数组传参的本质,冒泡排序,二级指针,指针数组
  • 开平机:技术深水区与产业变革的融合突破
  • spring ai alibaba ChatClient 获取大模型返回内容的方式 以及使用场景
  • 什么是 HEIC 格式?如何在电脑上查看HEIC格式的图像?
  • 软件开发的图表类型
  • RAG优化知识库检索(1):基础概念与架构
  • 结构性变革与新兴机遇
  • 如何评估SAP升级实施商的专业能力?
  • JWT原理及工作流程详解
  • 高频算法面试题总结
  • 系统的从零开始学习电子的相关知识,该如何规划?
  • 高效处理CR
  • 耀圣-气动带刮刀硬密封法兰球阀:攻克颗粒高粘度介质的自清洁 “利器”
  • (八)Java面向对象编程三大特性:封装、继承与多态性详解
  • Linux 系统安装Minio详细教程
  • 音视频同步知识
  • 今日行情明日机会——20250509
  • Codeforces Round 1023 (Div. 2)
  • 反向沙箱介绍
  • 麒麟系统使用-个性化设置
  • 库室指静脉人脸门禁机 LK-BM-S10C/JR
  • CDGP|数据治理怎么带动企业高速发展?
  • 革新锅炉厂智能控制——Ethernet IP转CANopen协议网关的工业互联新方案
  • 【UltralyticsYolo11图像分类完整项目-04】代码重构
  • 出现在‘{‘的段错误
  • 【RAG官方大神笔记】检索增强生成 (RAG):Python AI 教程的详细介绍
  • 【Qwen3_ 4b lora xinli】
  • 深入理解大模型分片优化:Late Chunking 技术解析
  • A2A与MCP定义下,User,Agent,api(tool)间的交互流程图
  • Agent-S: 操作计算机的智能代理框架