当前位置：首页 > news >正文

LLM基础-什么是Token？

news 2025/8/30 5:27:24

LLM基础-什么是Token？

概述

Token 是大语言模型（LLM, Large Language Model）中最基本的输入单元，它是语言被模型“理解”的方式。不同于人类可以直接看懂一段自然语言文本，LLM 只能处理数字，而这些数字就是由 token 转换而来的。

通过本文你将了解：

什么是 token，它和文字的关系是什么？
为什么 LLM 不直接处理文字，而是需要 token？
tokenizer 是做什么的，它的原理是什么？
常见的 tokenizer 类型和编码方式有哪些？

理解 token 是高效使用 LLM 的关键，无论你是要写 prompt、构建聊天机器人、做嵌入检索，还是进行微调训练，都离不开 token。

大模型如何接收输入

我们平常使用大模型，比如 ChatGPT、Deepseek等，都是通过输入一段文字（也就是“提示词”，Prompt）与模型进行交互，看似模型直接把这段文字作为输入，并处理了这段文本。但真实的处理流程情况并非如此。

模型内部并不会直接接收自然语言文本，而是接收经过token转换器编码后的 token 序列。

为什么需要这个转换过程？

神经网络只能处理数字。
文本需要映射成固定的向量才能进入模型计算。
使用 token 可以让模型更好地压缩、理解和预测语言结构。

输入流程图

这个过程不仅用于模型输入，也用于模型输出。Transformer生成的是一个个 token，它们最终会通过一个Tokenizer解码器再被转换回自然语言。

什么是 Token？

Token 是自然语言中被token转换器(Tokenizer)切分处理的最小单元。它可以是：

一个字符（例如：“你”）
一个单词（例如：“dog”）
一个词的一部分（例如：“play” + “ing”）

举例说明：

文本	Token 序列	Token 数量
Hello	[“Hello”] → `[15496]`	1
playing	[“play”, “ing”] → `[1223, 342]`	2
我喜欢你	[“我”, “喜欢”, “你”]	3
Let’s go!	[“Let”, “'”, “s”, " go", “!”]	5

注意：token 是模型所识别的基础单元，并不一定等同于自然语言中的“词”或“字”。

为什么要这么分？

这样的切分方式有助于：

减少词表大小，节省模型参数量。
提升对罕见词、新词、拼写错误的泛化能力。
对多语言尤其有效，尤其像中文、日文、韩文等语言没有天然空格分词的情况。

Token 是整数序列

神经网络不理解文本，只能处理数字。因此，token 需要被编码为整数，再被嵌入成向量，供模型处理。

示例流程：

文本输入：

"你好，世界"

Tokenizer 切分：

["你", "好", "，", "世界"]

编码为整数 ID：

[9234, 8721, 13, 45012]

这些整数再被转换成向量（通过嵌入层），输入给 Transformer 模型进行计算。

为什么是整数？

因为神经网络的嵌入层（Embedding Layer）就是通过“整数索引”去查一个巨大的向量表：

embedding[token_id] → 向量

所以 token 最终表现为一串整数 ID，是大模型能够理解语言的桥梁。

Tokenizer（Token 转换器）

Tokenizer 是完成文本和 token 之间转换的关键工具。

它的作用分为两部分：

**编码（Encode）：**将原始自然语言转为 token 数组。
**解码（Decode）：**将 token 数组转换回文本。

一个优秀的 tokenizer 应该具备以下特点：

高效：转换速度快，节省内存
可压缩：长文本能切分成较少 token
泛化性强：对未知单词也能合理切分

举个实际例子（使用 Tiktoken）：

python复制编辑from transformers import GPT2Tokenizertokenizer = GPT2Tokenizer.from_pretrained("gpt2")
text = "I love AI"
token_ids = tokenizer.encode(text)
print(token_ids)  # 输出：[40, 502, 1332]