BPE(字节对编码)和WordPiece 是什么
BPE(字节对编码)和WordPiece 是自然语言处理中常用的子词分词算法,它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。
BPE(Byte Pair Encoding,字节对编码)
原理
- 初始化:将文本按字符(或Unicode字节)拆分为最小单元,形成初始词汇表。
- 统计合并:迭代合并最频繁出现的相邻字符对,形成新的子词单元,直到达到预设的词汇表大小或合并次数。
- 应用分词:对新文本分词时,优先使用已学习的最长子词单元进行匹配。
示例
假设初始语料库为:
["low", "lower", "newest", "widest"]