掩码语言模型(Masked Language Model, MLM)
一句话概括
掩码语言模型是一种通过“填空”来进行训练和预测的模型。它会将输入文本中的部分词或字随机隐藏(用 [MASK]
标记代替),然后尝试根据上下文来预测这些被隐藏的内容。
核心思想与工作原理
想象一下一个完形填空练习题:
“今天天气很____,我们决定去公园野餐。”
人类很可能会填“好”、“不错”等词。掩码语言模型做的就是类似的事情,但是由计算机来完成。
具体步骤:
- 输入文本:模型接收一个句子,例如
“我今天要去书店买书。”
- 随机掩码:模型随机选择句子中15%左右的词(或字),并将其替换成一个特殊的
[MASK]
标记。- 例如,可能变成:
“我[MASK]天要去书店买书。”
- 例如,可能变成:
- 模型任务:模型需要根据被掩盖后句子的所有上下文信息(包括
[MASK]
前后的所有词),来预测被掩盖掉的原始词是什么。- 在这个例子中,模型需要分析“我”、“天要去书店买书”这些上下文,来推断出
[MASK]
的位置最可能是什么词。
- 在这个例子中,模型需要分析“我”、“天要去书店买书”这些上下文,来推断出
- 学习与训练:模型会给出一个预测结果(比如它预测是“今”),然后系统会将这个预测与真实的词(“今”)进行比较。通过计算损失函数并反向传播,模型不断调整其内部参数,从而变得越来越擅长做这种“填空”题。
通过海量的文本上进行这种“掩码-预测”练习,模型最终学会了语言中深层的语法、语义和词与词之间的关联规律。
为什么它如此重要?(与传统语言模型的区别)
传统的语言模型(如GPT系列所用的自回归模型)是单向的。它们通常从左到右逐词生成文本,在预测下一个词时,只能看到它左边的上下文。
- 例子:在预测“天气很____”中的词时,传统模型只知道“天气很”这三个字。
而掩码语言模型是双向的。在预测被掩码的词时,它可以利用整个句子的所有上下文信息,包括左右两边的词。
- 例子:在预测“我[MASK]天要去…”中的
[MASK]
时,模型既能看到左边的“我”,也能看到右边的“天要去书店买书”。这为预测提供了丰富得多的线索。
这种双向理解能力让掩码语言模型在语言理解任务上表现极其出色。
最著名的代表:BERT
BERT(Bidirectional Encoder Representations from Transformers)是掩码语言模型最成功、最著名的应用。谷歌在2018年发布BERT,它彻底改变了自然语言处理(NLP)领域。
BERT的核心训练任务就是MLM(以及下一句预测)。通过在超大规模语料上预训练,BERT学会了强大的语言表示能力。之后,开发者可以在这个“无所不知”的预训练模型基础上,用特定任务(如情感分析、问答系统、文本分类)的数据进行微调,就能得到非常出色的专业模型。
主要优缺点
优点:
- 强大的上下文理解能力:双向注意力机制使其对语言的理解深度远超单向模型。
- 适用于理解类任务:在文本分类、情感分析、实体识别、问答等“理解”任务上表现卓越。
- 预训练-微调范式:可以先进行通用的预训练,再高效地适配到各种下游任务,节省大量数据和计算资源。
缺点:
- 不适合直接做文本生成:由于输入中带有
[MASK]
标记,且训练目标不是顺序预测,BERT不能直接用于像写文章、对话这样的生成式任务。它更擅长“理解”而非“创作”。- (注:后续有一些基于MLM的生成模型如T5,通过将生成任务转化为“填空”任务来实现,但这不是MLM的典型用法。)
应用场景
掩码语言模型(主要是BERT及其变体)被广泛应用于:
- 搜索引擎:更好地理解查询意图和文档内容,提供更精准的搜索结果。
- 智能客服与聊天机器人:理解用户问题的核心。
- 情感分析:判断一条评论是正面还是负面。
- 机器翻译
- 文本摘要
- 语法检查
总结
掩码语言模型(MLM) 是一种通过“遮盖-预测”方式训练的双向语言模型。它通过让模型学习根据完整上下文来推断缺失信息,从而获得对语言的深刻理解。它是BERT等革命性模型的基石,极大地推动了自然语言处理技术在“理解”领域的发展。