当前位置: 首页 > ops >正文

【面试题】词汇表大小如何选择?

一句话金句: 在效率与性能间做权衡。

通俗解释:
选择词汇表大小是一个经典的权衡游戏:

  • 词汇表太小 (如 5k):
    • 坏处: 一个词会被拆得很碎(如“architecture” -> a, r, c, h, i, t, e, c, t, u, r, e),导致序列变长、计算变慢,且模型难以理解碎片化的意思。
    • 好处: 模型参数少,训练和推理速度快。
  • 词汇表太大 (如 100k+):
    • 坏处: 模型参数多(尤其是Embedding层),容易过拟合,训练慢。
    • 好处: 更多词能以整体形式出现,保留完整语义,序列长度短。

经验值:

  • 英语:30k - 50k 是常见范围。
  • 中文:20k - 40k 通常足以覆盖常用字和常见组合。

面试得分点:

  • 点明权衡的本质:小表效率高但碎片化,大表语义全但参数多。
  • 给出一个经验范围,并说明最终需通过实验确定。

http://www.xdnf.cn/news/19819.html

相关文章:

  • React实现点击按钮复制操作【navigator.clipboard与document.execCommand】
  • Elasticsearch面试精讲 Day 6:Query DSL查询语法详解
  • 【JAVA】windows本地跑zookeeper,然后使用代码连接服务获取znode数据
  • 【leetcode】130. 被围绕的区域
  • NLP插曲番外 · 猫猫狐狐问答夜话
  • 分词器详解(一)
  • 信息融智学=信息哲学+信息科学+信息技术+信息系统工程+信息处理之智
  • 组长跟我说,她招人看重的是数据分析能力
  • 计算机视觉(七):膨胀操作
  • 机器学习 - Kaggle项目实践(8)Spooky Author Identification 作者识别
  • awk命令
  • GitHub 上那些值得收藏的英文书籍推荐(计算机 非计算机类)
  • 逻辑回归:从原理到实战的完整指南
  • 刻意练习理论
  • 群晖为家纺企业 500 名员工打造企业网盘,赋能家纺制造效率飞跃
  • Python数据分析与处理(二):将数据写回.mat文件的不同方法【超详细】
  • 第二章 Windows 核心概念通俗解析
  • Linux 的 swap 是什么
  • Vue3 警告:Runtime directive used on component with non-element root node 解决方案
  • 16k+ star! 只需要DDL就能一键生成数据库关系图!
  • 正运动控制卡学习-网络连接
  • Java 黑马程序员(进阶篇1)
  • 从BERT到RoBERTa、ALBERT:揭秘Encoder-only预训练模型的进化之路
  • 【常用SQL语句和语法总结】
  • 数据科学家如何更好地展示自己的能力
  • 项目中 Spring Boot 配置文件未生效该如何解决
  • JavaScript箭头函数与普通函数:两种工作方式的深度解析
  • 诊断服务器(Diagnostic Server)
  • Linux 字符设备驱动框架学习记录(三)
  • Spring Boot 全局异常处理问题分析与解决方案