当前位置: 首页 > ai >正文

【Token系列】01 | Token不是词:GPT如何切分语言的最小单元

文章目录

  • 01 | Token不是词:GPT如何切分语言的最小单元?
    • 一、什么是 Token?
    • 二、Token 是怎么来的?——BPE算法原理
      • BPE核心步骤:
    • 三、为什么不直接用词或字符?
    • 四、Token切分的实际影响
    • 五、中文Token的特殊性
    • 六、Token机制的未来方向
    • 七、总结

01 | Token不是词:GPT如何切分语言的最小单元?

副标题:深入BPE算法,理解token的非线性结构意义


一、什么是 Token?

在 GPT 这类语言模型中,token 是模型处理语言的基本单位。它不是传统意义上的“词”或“字符”,而是更小的、基于统计规律和语义结构的子词片段

示例:

文本内容Token 切分
ChatGPTChat, G, PT
playingplay, ing
我爱你我, 爱, 你

英文可能被分成多个片段;中文一般一个字一个 token。


二、Token 是怎么来的?——BPE算法原理

GPT采用的BPE(Byte Pair Encoding)是一种子词分词算法,原本用于压缩,现在被用来平衡词与字符的语义表达。

BPE核心步骤:

  1. 初始化:所有词拆为单字符;
  2. 统计频次:找出最常见的字符对;
  3. 合并字符对:变成新的token;
  4. 重复合并,直到构建出固定大小的词表(如GPT-3为50257个token)。

BPE最终形成的token词表中,高频词可整体保留,低频词被拆解重构。


三、为什么不直接用词或字符?

粒度优点缺点
字符泛化强语义弱
单词语义强新词不识别
子词(Token)平衡泛化与语义实现复杂

token 是字符和词之间的平衡结构,便于模型学习和泛化。


四、Token切分的实际影响

  • 模型限制:如 GPT-3 最大支持 2048 token,不是 2048 字;
  • API计费:OpenAI 计费基于 token 数,而非字数;
  • 上下文控制:token 越多,占用上下文窗口越快,需控制生成长度。

五、中文Token的特殊性

中文通常一字一 token,但模型会根据语料频率进行调整:

  • “清华大学” 可能为 [“清”, “华”, “大学”] 或 [“清华”, “大学”];
  • “ChatGPT” 可被切为 [“Chat”, “G”, “PT”],因非高频复合词。

六、Token机制的未来方向

  1. Unigram分词(如T5);
  2. 多语言共享词表(如mBERT);
  3. 动态tokenization:模型运行时自适应切分。

七、总结

token 不是词,它是语言模型的语言单位,是语义压缩与泛化效率之间的产物。理解 token 的切分方式,是深入理解GPT系列语言模型结构的第一步。


http://www.xdnf.cn/news/2123.html

相关文章:

  • 思科路由器重分发(RIP动态路由+静态路由)
  • 强化学习:高级策略梯度理论与优化方法
  • react的fiber 用法
  • 6.1腾讯技术岗2025面试趋势前瞻:大模型、云原生与安全隐私新动向
  • 重定向和语言级缓冲区【Linux操作系统】
  • 用python写一个相机选型的简易程序
  • RTMP 协议解析 1
  • Linux0.11内存管理:相关代码
  • 从零实现 registry.k8s.io/pause:3.8 镜像的导出与导入
  • 山东大学软件学院项目实训-基于大模型的模拟面试系统-网页图片显示问题
  • 基于开源技术体系的品牌赛道力重构:AI智能名片与S2B2C商城小程序源码驱动的品类创新机制研究
  • 月之暗面开源 Kimi-Audio-7B-Instruct,同时支持语音识别和语音生成
  • 推荐三款GitHub上高星开源的音乐搜索平台
  • 华为OD机试真题——素数之积RSA加密算法(2025A卷:100分)Java/python/JavaScript/C/C++/GO最佳实现
  • JDK 17 与 Spring Cloud Gateway 新特性实践指南
  • Flask + ajax上传文件(三)--图片上传与OCR识别
  • DataStreamAPI实践原理——计算模型
  • 上位机知识篇---时钟分频
  • [mysql]数据类型精讲下
  • 【Linux网络】HTTP协议全解析 - 从请求响应到方法与Header
  • SpringBoot UserAgentUtils获取用户浏览器 操作系统设备统计 信息统计 日志入库
  • 从基础到实战的量化交易全流程学习:1.1 量化交易本质与行业生态
  • C++---类和对象(二)
  • VO包装类和实体类分别是什么?区别是什么?
  • C++学习笔记(四十)——STL之归约算法
  • 深入探究 MySQL 架构:从查询到硬件
  • Apache NetBeans 25 发布
  • 任务管理系统,Java+Vue,含源码与文档,科学规划任务节点,全程督办保障项目落地提效
  • priority_queue的学习
  • GoFly快速开发框架新增UI素材库-帮助开发者快速开发管理后台UI基于ArcoDesign框架开发