【面试题】词汇表大小如何选择?
一句话金句: 在效率与性能间做权衡。
通俗解释:
选择词汇表大小是一个经典的权衡游戏:
- 词汇表太小 (如 5k):
- 坏处: 一个词会被拆得很碎(如“architecture” ->
a, r, c, h, i, t, e, c, t, u, r, e
),导致序列变长、计算变慢,且模型难以理解碎片化的意思。 - 好处: 模型参数少,训练和推理速度快。
- 坏处: 一个词会被拆得很碎(如“architecture” ->
- 词汇表太大 (如 100k+):
- 坏处: 模型参数多(尤其是Embedding层),容易过拟合,训练慢。
- 好处: 更多词能以整体形式出现,保留完整语义,序列长度短。
经验值:
- 英语:30k - 50k 是常见范围。
- 中文:20k - 40k 通常足以覆盖常用字和常见组合。
面试得分点:
- 点明权衡的本质:小表效率高但碎片化,大表语义全但参数多。
- 给出一个经验范围,并说明最终需通过实验确定。