当前位置：首页 > ai >正文

【大模型】Bert变种

ai 2025/7/21 14:58:57

1. RoBERTa（Robustly optimized BERT approach）

核心改动
1. 取消 NSP（Next Sentence Prediction）任务，研究发现 NSP 对多数下游任务贡献有限。
2. 动态遮蔽（dynamic masking）：每个 epoch 重新生成 Mask 掩码，而非一次性固定，从而引入更多样本变体。
3. 更长训练、更大批次：使用更大 batch size（比如 8K–16K tokens）和更多预训练数据。
4. 拼写单位改进：采用基于 bytes 而非字符的 BPE，处理 Unicode 时更鲁棒。
效果：在 GLUE、SQuAD 等基准上显著超过原始 BERT，成为后续多模型竞赛常用基线。

2. ALBERT（A Lite BERT）

核心改动
1. 参数共享：跨层共享 Transformer 参数，大幅减少模型总参数量。
2. Embedding 分离：将词向量维度 $E$ 与隐藏层维度 $H$ 解耦，通常设定 $\ll H$ ，减小 Embedding 参数开销。
3. 用 SOP（Sentence Order Prediction）替代 NSP：模型需要判断两句文本是否颠倒，提升句间理解。
效果：在 GLUE、RACE 等多个任务上，以更少参数（如 ALBERT-xxlarge 仅 235M）匹配或超越 BERT-Large 的表现。

3. DistilBERT & TinyBERT（蒸馏版 BERT）

核心改动
- 知识蒸馏（Knowledge Distillation）：用大模型（教师）对小模型（学生）提供软标签，使学生网络尽量拟合教师的输出分布。
- DistilBERT：从 BERT-Base 蒸馏，保留 60% 参数、运行速度提升 ~60%，在 GLUE 上保留 ≈95% 性能。
- TinyBERT：进一蒸馏到更小结构（≈28% 参数），还引入中间层对齐、注意力矩阵对齐等技巧。
效果：适用于资源受限场景（移动端、在线推理），在准确率与效率间取得良好平衡。

4. ELECTRA（Efficiently Learning an Encoder that Classifies Token Replacements Accurately）

核心改动
- 判别式预训练：不再纯掩码预测真实词，而是由小 Generator 模型先生成“伪替换”词，主模型（Discriminator）学习判断每个 token 是否被替换。
- Generator 与 Discriminator 共同训练，模拟 GAN 思想，但更适合文本。
效果：在相同计算预算下，ELECTRA-Small、-Base 在 GLUE、SQuAD 上均超过同规模的 MLM 模型，样本效率更高。

5. DeBERTa（Decoding-enhanced BERT with Disentangled Attention）

核心改动
1. 解耦位置与内容编码：将 token embedding 与 position embedding 保持分离，分别计算 Attention，然后再融合。
2. 相对位置偏置：在 Attention 中引入可学习的相对位置矩阵，而非简单相加。
效果：在 GLUE、SuperGLUE、阅读理解等多项任务上刷新当时最优，多用于大规模研究与基线。

6. SpanBERT（Improving Pre-training by Representing and Predicting Spans）

核心改动
1. 跨度级掩码：一次遮蔽连续的文本 span（平均长 3.8 个 token），而非随机单字或子词，以更好地学习文段内部关联。
2. Span-Boundary Objective (SBO)：利用被遮蔽 span 两端的边界表示，预测整个 span 的内容，而非仅逐字预测。
效果：在抽取式问答（SQuAD 1.1/2.0）、共指消解（OntoNotes）等跨度选择任务上，对比同等大小 BERT-Large 提升数个百分点；在关系抽取、GLUE 等也有溢出式提升。

http://www.xdnf.cn/news/9694.html

相关文章：

Kubernetes资源申请沾满但是实际的资源占用并不多，是怎么回事？

微深节能码头装卸船机定位与控制系统格雷母线

WPF 按钮悬停动画效果实现

【五模型时间序列预测对比】Transformer-LSTM、Transformer、CNN-LSTM、LSTM、CNN

《AI大模型的开源与性能优化：DeepSeek R1的启示》

互斥锁、自旋锁、读写锁、悲观锁、乐观锁的应用场景

深入理解C#中的LINQ：数据查询的终极利器

2013-2021年各省电子商务数据

认识多系统萎缩：一种隐匿进展的神经退行性问题

spring IOC控制反转

【春秋云镜】CVE-2022-26965 靶场writeup

第一章项目总览

线性代数入门：轻松理解二阶与三阶行列式的定义与理解

Java消息队列与安全实战：谢飞机的烧饼摊故事

AI编程报错 API流式传输失败解决方案

如何做好一个决策：基于 Excel的决策树+敏感性分析应用

在ROS2(humble)+Gazebo+rqt下，实时显示仿真无人机的相机图像

WPF的UI交互基石：数据绑定基础

设计模式之原型模式

[9-1] USART串口协议江协科技学习笔记（13个知识点）

pycharm debug的时候无法debug到指定的位置就停住不动了

Spring Boot 3.0与Java 17：企业级应用开发的新范式

github.com/lib/pq 数据库链接完整示例方式

word文档格式规范（论文格式规范、word格式、论文格式、文章格式、格式prompt）

【PhysUnits】15 完善的类型整数基本结构体(basic.rs)

AI自动化测试框架browser use 项目测试总结

2025.5.28学习日记 linux三剑客 awk

阿达三国志战棋天下攻略详解最新

从时间到宇宙：探索时间同步的底层奥秘与工程实践