当前位置：首页 > news >正文

Bert预训练任务-MLM/NSP

news 2025/7/13 8:45:29

MLM

MLM:Masked Language Mode:在每一个训练序列中以15%的概率随机地选中某个token进行MASK,当一个token被选中后，有以下三种处理方式：

80%的概率被[MASK]，如my dog is hairy->my dog is [MASK]
10%的概率修改为随机的其他token,如my dog is hairy->my dog is apple
10%的概率修改为随机的其他token,如my dog is hairy->my dog is hairy

然后再对该位置的MASK进行预测。以上的MLM任务让BERT针对被MASK的token的上下文信息预测目标token。

NSP

NSP:Next Sentence Prediction，对于每一个训练样例，进行如下操作。

50%的概率保持原有顺序（标注为lsNext）
50%的概率后面的句子被替换为文档的其他随机句B(标注为NotNext)。接下来把训练样例输入到BERT模型中，用[CLS]对应的信息去进行二分类。

http://www.xdnf.cn/news/590401.html

相关文章：

数仓SQL投影介绍

小米2025年校招笔试真题手撕（一）

基于企业数字化转型战略的数据治理方法论与顶层设计思路

基于B/S架构的质量监督检验报告自动生成管理系统有何亮点？

Vue3 打印表格、Element Plus 打印、前端打印、表格导出打印、打印插件封装、JavaScript 打印、打印预览

Java使用Collections集合工具类

DAY 33 简单的神经网络

软件设计师“面向对象设计”真题考点分析——求三连

深入剖析 Doris 倒排索引（上）：原理与应用全解析

腾讯2025年校招笔试真题手撕（三）

嵌入式学习笔记 - 关于ARM编辑器compiler version 5 and compiler version 6

软考高项考前48小时冲刺：核心考点记忆 + 错题复盘 + 3 科重点

养生指南：五维提升健康品质

基于cornerstone3D的dicom影像浏览器第二十一章显示DICOM TAGS

Paimon和Hive相集成

Java基础 Day18

Redis 是否适合像 MySQL 一样当数据库使用？

单一职责原则 (Single Responsibility Principle, SRP)

html主题切换小demo

Oracle 中 SHRINK 与 MOVE 操作的比较

NR 通讯的整体架构

PyTorch可视化工具——使用Visdom进行深度学习可视化

Jetson:aarch64平台编译onnxruntime使用GPU

【GESP】C++三级真题 luogu-B4038 [GESP202409 三级] 平衡序列

Flask 路由跳转机制：url_for生成动态URL、redirect页面重定向

基于 ZU49DR FPGA 的无线电射频数据采样转换开发平台核心板

LLaMA-Factory微调LLM-Research/Llama-3.2-3B-Instruct模型

基于多目标优化的样本调度适应度函数设计

7.1.查找的基本概念