当前位置：首页 > news >正文

掩码语言模型（Masked Language Model, MLM）

news 2025/9/1 9:33:56

掩码语言模型是一种通过“填空”来进行训练和预测的模型。它会将输入文本中的部分词或字随机隐藏（用 [MASK] 标记代替），然后尝试根据上下文来预测这些被隐藏的内容。

想象一下一个完形填空练习题：

“今天天气很____，我们决定去公园野餐。”

人类很可能会填“好”、“不错”等词。掩码语言模型做的就是类似的事情，但是由计算机来完成。

具体步骤：

输入文本：模型接收一个句子，例如 “我今天要去书店买书。”
随机掩码：模型随机选择句子中15%左右的词（或字），并将其替换成一个特殊的 [MASK] 标记。
- 例如，可能变成：“我[MASK]天要去书店买书。”
模型任务：模型需要根据被掩盖后句子的所有上下文信息（包括 [MASK] 前后的所有词），来预测被掩盖掉的原始词是什么。
- 在这个例子中，模型需要分析“我”、“天要去书店买书”这些上下文，来推断出 [MASK] 的位置最可能是什么词。
学习与训练：模型会给出一个预测结果（比如它预测是“今”），然后系统会将这个预测与真实的词（“今”）进行比较。通过计算损失函数并反向传播，模型不断调整其内部参数，从而变得越来越擅长做这种“填空”题。

通过海量的文本上进行这种“掩码-预测”练习，模型最终学会了语言中深层的语法、语义和词与词之间的关联规律。

传统的语言模型（如GPT系列所用的自回归模型）是单向的。它们通常从左到右逐词生成文本，在预测下一个词时，只能看到它左边的上下文。

而掩码语言模型是双向的。在预测被掩码的词时，它可以利用整个句子的所有上下文信息，包括左右两边的词。

这种双向理解能力让掩码语言模型在语言理解任务上表现极其出色。

BERT（Bidirectional Encoder Representations from Transformers）是掩码语言模型最成功、最著名的应用。谷歌在2018年发布BERT，它彻底改变了自然语言处理（NLP）领域。

BERT的核心训练任务就是MLM（以及下一句预测）。通过在超大规模语料上预训练，BERT学会了强大的语言表示能力。之后，开发者可以在这个“无所不知”的预训练模型基础上，用特定任务（如情感分析、问答系统、文本分类）的数据进行微调，就能得到非常出色的专业模型。

优点：

缺点：

不适合直接做文本生成：由于输入中带有 [MASK] 标记，且训练目标不是顺序预测，BERT不能直接用于像写文章、对话这样的生成式任务。它更擅长“理解”而非“创作”。
- （注：后续有一些基于MLM的生成模型如T5，通过将生成任务转化为“填空”任务来实现，但这不是MLM的典型用法。）