当前位置: 首页 > ai >正文

【大模型】Bert变种

1. RoBERTa(Robustly optimized BERT approach)

  • 核心改动
    1. 取消 NSP(Next Sentence Prediction)任务,研究发现 NSP 对多数下游任务贡献有限。
    2. 动态遮蔽(dynamic masking):每个 epoch 重新生成 Mask 掩码,而非一次性固定,从而引入更多样本变体。
    3. 更长训练、更大批次:使用更大 batch size(比如 8K–16K tokens)和更多预训练数据。
    4. 拼写单位改进:采用基于 bytes 而非字符的 BPE,处理 Unicode 时更鲁棒。
  • 效果:在 GLUE、SQuAD 等基准上显著超过原始 BERT,成为后续多模型竞赛常用基线。

2. ALBERT(A Lite BERT)

  • 核心改动
    1. 参数共享:跨层共享 Transformer 参数,大幅减少模型总参数量。
    2. Embedding 分离:将词向量维度 E E E与隐藏层维度 H H H解耦,通常设定 E ≪ H E \ll H EH,减小 Embedding 参数开销。
    3. 用 SOP(Sentence Order Prediction)替代 NSP:模型需要判断两句文本是否颠倒,提升句间理解。
  • 效果:在 GLUE、RACE 等多个任务上,以更少参数(如 ALBERT-xxlarge 仅 235M)匹配或超越 BERT-Large 的表现。

3. DistilBERT & TinyBERT(蒸馏版 BERT)

  • 核心改动
    • 知识蒸馏(Knowledge Distillation):用大模型(教师)对小模型(学生)提供软标签,使学生网络尽量拟合教师的输出分布。
    • DistilBERT:从 BERT-Base 蒸馏,保留 60% 参数、运行速度提升 ~60%,在 GLUE 上保留 ≈95% 性能。
    • TinyBERT:进一蒸馏到更小结构(≈28% 参数),还引入中间层对齐、注意力矩阵对齐等技巧。
  • 效果:适用于资源受限场景(移动端、在线推理),在准确率与效率间取得良好平衡。

4. ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)

  • 核心改动
    • 判别式预训练:不再纯掩码预测真实词,而是由小 Generator 模型先生成“伪替换”词,主模型(Discriminator)学习判断每个 token 是否被替换。
    • Generator 与 Discriminator 共同训练,模拟 GAN 思想,但更适合文本。
  • 效果:在相同计算预算下,ELECTRA-Small、-Base 在 GLUE、SQuAD 上均超过同规模的 MLM 模型,样本效率更高。

5. DeBERTa(Decoding-enhanced BERT with Disentangled Attention)

  • 核心改动
    1. 解耦位置与内容编码:将 token embedding 与 position embedding 保持分离,分别计算 Attention,然后再融合。
    2. 相对位置偏置:在 Attention 中引入可学习的相对位置矩阵,而非简单相加。
  • 效果:在 GLUE、SuperGLUE、阅读理解等多项任务上刷新当时最优,多用于大规模研究与基线。

6. SpanBERT(Improving Pre-training by Representing and Predicting Spans)

  • 核心改动
    1. 跨度级掩码:一次遮蔽连续的文本 span(平均长 3.8 个 token),而非随机单字或子词,以更好地学习文段内部关联。
    2. Span-Boundary Objective (SBO):利用被遮蔽 span 两端的边界表示,预测整个 span 的内容,而非仅逐字预测。
  • 效果:在抽取式问答(SQuAD 1.1/2.0)、共指消解(OntoNotes)等跨度选择任务上,对比同等大小 BERT-Large 提升数个百分点;在关系抽取、GLUE 等也有溢出式提升。
http://www.xdnf.cn/news/9694.html

相关文章:

  • Kubernetes资源申请沾满但是实际的资源占用并不多,是怎么回事?
  • 微深节能 码头装卸船机定位与控制系统 格雷母线
  • WPF 按钮悬停动画效果实现
  • 【五模型时间序列预测对比】Transformer-LSTM、Transformer、CNN-LSTM、LSTM、CNN
  • 《AI大模型的开源与性能优化:DeepSeek R1的启示》
  • 互斥锁、自旋锁、读写锁、悲观锁、乐观锁的应用场景
  • 深入理解C#中的LINQ:数据查询的终极利器
  • 2013-2021年各省电子商务数据
  • 认识多系统萎缩:一种隐匿进展的神经退行性问题
  • spring IOC控制反转
  • 【春秋云镜】CVE-2022-26965 靶场writeup
  • 第一章 项目总览
  • 线性代数入门:轻松理解二阶与三阶行列式的定义与理解
  • Java消息队列与安全实战:谢飞机的烧饼摊故事
  • AI编程报错 API流式传输失败解决方案
  • 如何做好一个决策:基于 Excel的决策树+敏感性分析应用
  • 在ROS2(humble)+Gazebo+rqt下,实时显示仿真无人机的相机图像
  • WPF的UI交互基石:数据绑定基础
  • UDP编程
  • 设计模式之原型模式
  • [9-1] USART串口协议 江协科技学习笔记(13个知识点)
  • pycharm debug的时候无法debug到指定的位置就停住不动了
  • Spring Boot 3.0与Java 17:企业级应用开发的新范式
  • github.com/lib/pq 数据库链接完整示例方式
  • word文档格式规范(论文格式规范、word格式、论文格式、文章格式、格式prompt)
  • 【PhysUnits】15 完善的类型整数基本结构体(basic.rs)
  • AI自动化测试框架browser use 项目测试总结
  • 2025.5.28学习日记 linux三剑客 awk
  • 阿达三国志战棋天下攻略详解最新
  • 从时间到宇宙:探索时间同步的底层奥秘与工程实践