当前位置: 首页 > java >正文

【DataWhale】快乐学习大模型 | 202507,Task06笔记

Encoder-only PLM

有标注的数据是很贵的,利用预测文本中间内容这种无监督的方式可以有效地利用大量的无标注数据,提升模型效果。

BERT

核心:
1、利用到了前后信息
训练时通过:
I love [MASK] because you are [MASK].
来预测MASK。

RoBERTa

优化:
1、去掉 NSP 预训练任务
2、更⼤规模的预训练数据和预训练步⻓
3、更⼤的 bpe 词表
核心:
1、更大规模的预训练数据
2、动态遮蔽策略提升性能

ALBERT

优化:
1、将 Embedding 参数进⾏分解
2、跨层进⾏参数共享
3、提出 SOP 预训练任务
核心:
1、Encoder参数共享
2、改进的预训练任务减少参数量提升性能
里面用到的SOP的训练方法有点对比学习的感觉

名词解释

BERT: (Bidirectional Encoder Representations from Transformers), 基于Transformer的双向编码器表示,是一个预训练语言模型,主要用于自然语言理解(NLU)任务。
MLM: (Masked Language Model), 掩码语言模型,BERT的预训练任务之一,通过随机遮蔽部分token并要求模型预测被遮蔽的token来训练模型捕捉双向语义关系。
NSP: (Next Sentence Prediction), 下一句预测,BERT的另一个预训练任务,通过判断两个句子是否是连续的上下文来训练模型的句级语义关系拟合能力。
NLU: (Natural Language Understanding), 自然语言理解,NLP的一个子领域,专注于让计算机理解人类语言的语义。
NLG: (Natural Language Generation), 自然语言生成,NLP的一个子领域,专注于让计算机生成自然语言文本。
LLM: (Large Language Model), 大型语言模型,指参数量极大、预训练数据规模庞大的语言模型,如GPT系列。
SOTA: (State Of The Art), 当前最优性能,指在某个任务或领域中达到的最佳性能水平。
RoBERTa: (Robustly Optimized BERT Approach), 一种对BERT进行优化的预训练模型,通过改进预训练任务和使用更大规模的预训练数据来提升性能。
ALBERT: (A Lite BERT), 一种对BERT进行优化的预训练模型,通过减少模型参数量并引入新的预训练任务(SOP)来提升性能。
SOP: (Sentence Order Prediction), 句子顺序预测,ALBERT提出的预训练任务,通过判断两个句子的顺序关系来增加预训练的难度。
BPE: (Byte Pair Encoding), 字节对编码,一种分词方法,将文本切分为子词对,用于提高模型对文本的编码能力。
WordPiece: 一种基于统计的子词切分算法,将单词拆解为子词,用于分词和模型输入。
这些缩写在自然语言处理领域中非常常见,理解它们的全称和含义有助于更好地把握相关技术和模型的核心概念。

参考资料

1、happy-llm/docs/chapter3/第三章 预训练语言模型.md
2、kimi

http://www.xdnf.cn/news/16142.html

相关文章:

  • 游戏装备被盗,运营商赔不赔
  • Petalinux的常用指令
  • 【Linux | 网络】应用层(HTTPS)
  • Python 程序设计讲义(7):Python 的基本数据类型——整数类型
  • Linux 或者 Ubuntu 离线安装 ollama
  • Paimon的部分更新以及DeleteVector实现
  • 使用阿里云 ESA 边缘函数转发代理 docker registry
  • Vue TodoList案例
  • day060-zabbix监控各种客户端
  • Android网络请求,Retrofit,OKHttp学习
  • 在AI深度嵌入企业业务的当下——AI时代的融合数据库
  • 【Vue3】ECharts图表案例
  • 跟著Qcadoo MES系统学习产品设计001
  • [CH582M入门第十步]蓝牙从机
  • Redis的key过期策略
  • 基于多种机器学习的水质污染及安全预测分析系统的设计与实现【随机森林、XGBoost、LightGBM、SMOTE、贝叶斯优化】
  • 【前沿技术动态】【AI总结】RustFS:从 0 到 1 打造下一代分布式对象存储
  • Linux网络-------1.socket编程基础---(UDP-socket)
  • 基于Tornado的WebSocket实时聊天系统:从零到一构建与解析
  • Zookeeper学习专栏(八):使用高级客户端库Apache Curator
  • 《计算机网络》实验报告七 HTTP协议分析与测量
  • Qwen3-Code-480B-A35B-instruct模型开源当天“舆情分析”
  • @Repository与@Mapper核心区别详解
  • OpenCV 图像预处理:颜色操作与灰度、二值化处理详解
  • Modbus TCP转Devicenet:水泥厂PLC与多类仪表的自动化通信实践
  • javaSE(List集合ArrayList实现类与LinkedList实现类)day15
  • 如何Visual Studio 的配置从 Qt-Debug 切换到 x64-Debug
  • 本地运行C++版StableDiffusion!开源应用StableVerce发布
  • 垃圾回收介绍
  • (LeetCode 面试经典 150 题 ) 228. 汇总区间 (数组)