【面试题】BPE和WordPiece的区别?
一句话金句: BPE看频率,WordPiece看概率。
通俗解释:
两者都是把单词拆成更小子词的方法,但决定“合并哪两个部分”的策略不同。
-
BPE (Byte-Pair Encoding): 像一个统计员。它只做一件事:找到语料中最常挨在一起的两个符号(或子词),然后把它们合并起来。它一直重复这个过程,直到词汇表达到预定大小。
- 例子: 如果
"e"
和"s"
经常连在一起出现,它们就会被合并成"es"
。
- 例子: 如果
-
WordPiece (BERT在用): 像一个精算师。它的策略更聪明:合并那些能最大程度提升语言模型概率的相邻符号对。简单说,就是合并后,让整个数据看起来更“通顺”、更“合理”。
- 例子: 合并
"un"
和"##able"
成"unable"
,会比合并其他组合让整个句子的可能性提升得更多。
- 例子: 合并
面试得分点:
- 著名代表: GPT家族用BPE,BERT家族用WordPiece。
- 视觉区别: WordPiece会给单词中间的子词加上
##
前缀(如##ing
)来标记,BPE通常不加。