当前位置: 首页 > backend >正文

LLMs Tokenizer Byte-Pair Encoding(BPE)

1 Byte-Pair Encoding(BPE) 如何构建词典?

  1. 准备足够的训练语料;以及期望的词表大小;
  2. 将单词拆分为字符粒度(字粒度),并在末尾添加后缀“”,统计单词频率
  3. 合并方式:统计每一个连续/相邻字节对的出现频率,将最高频的连续字节对合并为新的子词;
  4. 重复第3步,直到词表达到设定的词表大小;或下一个最高频字节对出现频率为1。

注:GPT2、BART和LLaMA就采用了BPE。

WordPiece 

1 WordPiece 与 BPE 异同点是什么?

本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并

  • BPE是选择频次最大的相邻子词合并;
  • WordPiece算法选择 能够提升语言模型概率最大的相邻子词进行合并,来加入词表

注:BERT采用了WordPiece。

SentencePiece 

简单介绍一下 SentencePiece 思路?

把空格也当作一种特殊字符来处理,再用BPE或者来构造词汇表。

注:ChatGLM、BLOOM、PaLM采用了SentencePiece。

对比篇

    举例 介绍一下 不同 大模型LLMs 的分词方式?

    1. 介绍一下 不同 大模型LLMs的分词方式 的区别?

    1. LLaMA的词表是最小的,LLaMA在中英文上的平均token数都是最多的,这意味着LLaMA对中英文分词都会 比较碎,比较细粒度。尤其在中文上平均token数高达1.45,这意味着LLaMA大概率会将中文字符切分为2个 以上的token。
    2. Chinese LLaMA扩展词表后,中文平均token数显著降低,会将一个汉字或两个汉字切分为一个token,提高了中文编码效率。
    3. ChatGLM-6B是平衡中英文分词效果最好的tokenizer。由于词表比较大中文处理时间也有增加
    4. BLOOM虽然是词表最大的,但由于是多语种的,在中英文上分词效率与ChatGLM-6B基本相当。
    http://www.xdnf.cn/news/3602.html

    相关文章:

  1. [ Qt ] | 第一个Qt程序
  2. MySQL进阶(一)
  3. 密码学_加密
  4. 高露洁牙膏是哪个国家的品牌?高露洁牙膏哪一款最好?
  5. [预备知识]5. 优化理论(一)
  6. MySQL基础关键_004_DQL(三)
  7. 【学习笔记】深入理解Java虚拟机学习笔记——第2章 Java内存区域与内存溢出异常
  8. C++析构函数详解
  9. Socat 用法详解:网络安全中的瑞士军刀
  10. 部署Superset BI(一)试水
  11. 非对称加密算法(RSA、ECC、SM2)——密码学基础
  12. 2025年- H18-Lc126-54.螺旋矩阵(矩阵)---java版
  13. 【阿里云大模型高级工程师ACP习题集】2.9 大模型应用生产实践(上篇)
  14. Android学习总结之jetpack组件间的联系
  15. HTTP和HTTPS
  16. IntelliJ IDEA
  17. 微信小程序
  18. Python集合全解析:从基础到高阶应用实战
  19. 信息收集新利器:SSearch Chrome 插件来了
  20. 如何理解 MCP 和 A2A 的区别?|AI系统架构科普
  21. B站Michale_ee——ESP32_IDF SDK——FreeRTOS_5 事件组同步与等待
  22. 驱动开发系列56 - Linux Graphics QXL显卡驱动代码分析(三)显示模式设置
  23. wpf 输入框 在输入时去除水印
  24. 开闭原则与依赖倒置原则区别:原类不变,新增类(功能)vs 接口类不变,原实现类可变
  25. 十分钟用Docker搭建功能齐全的Poste.io邮件服务器
  26. 分布式理论:常见分布式协议的概览与解析
  27. 原地轮转数组的两种高效实现详解
  28. 使用 Java 实现一个简单且高效的任务调度框架
  29. HTTPS协议:更安全的HTTP
  30. Qt通过QXlsx库文件写入到excl文件,读取excl文件