当前位置: 首页 > java >正文

Token 和 Embedding的关系

# Token与Embedding的关系
## **Token**
Token是模型处理文本时的最小离散单元,可以是一个词、子词(subword)或符号(如标点)。
大模型(如GPT、BERT)通过分词器(Tokenizer)将原始文本拆分成Token序列。
分词方式:
词级分词(如"hello"作为一个Token)。
子词分词(如BERT的WordPiece、GPT的Byte-Pair Encoding):
例如,"unhappy" → "un" + "happy"(两个Token),解决罕见词和词表膨胀问题。
词表(Vocabulary):模型所有可能Token的集合(如GPT-3的词表约5万个Token)。
数值化:每个Token被映射为词表中的整数索引(如"cat"→ID 5432)。
## Embedding
Embedding是将Token映射到一个连续向量空间的数学表示,本质是一个高维向量(如GPT-3的嵌入维度是12288)。
它捕捉Token的语义和语法特征(例如,"king"和"queen"的向量方向相似)。
生成方式:
通过嵌入层(Embedding Layer)实现,是一个可学习的矩阵,行数=词表大小,列数=嵌入维度。
例如,Token ID=5432 → 查表得到对应的d维向量(如[0.2, -0.5, ..., 1.4])。

## Token和 Embedding的关系
```java
原始文本 → Token化(离散ID) → Embedding层(连续向量) → 模型计算
```
例如:"I love NLP" → Token IDs `[32, 156, 5432]` → 3个`d`维向量 → 输入Transformer。
- Token是**标量**(一个整数),Embedding是**向量**(如`[d×1]`)。
- 模型输入的最终形式是一个**序列的Embedding矩阵**(如`[序列长度×嵌入维度]`)。

http://www.xdnf.cn/news/14985.html

相关文章:

  • 模型内部进行特征提取时,除了“减法”之外,还有哪些技术
  • SpringCloud系列 - xxl-job 分布式任务调度 (七)
  • Using Spring for Apache Pulsar:Publishing and Consuming Partitioned Topics
  • swiglu 激活函数学习笔记
  • Rust与Cypress应用
  • 技术支持丨解决 ServBay 在 Windows 启动时反复提示安装 .NET 的问题
  • Flask3.1打造极简CMS系统
  • leetcode11.盛最多水的容器
  • 微信小程序91~100
  • STM32-待机唤醒实验
  • 搭建一款结合传统黄历功能的日历小程序
  • S7-200 SMART :通过以太网下载程序详细步骤
  • ServBay Windows 1.2.0 更新!新增 PHP 设置与 Ollama 支持
  • Docker 高级管理 -- 容器通信技术与数据持久化
  • 人工智能-基础篇-27-模型上下文协议--MCP到底怎么理解?对比HTTP的区别?
  • 如何卸载本机的node.js
  • 【视频观看系统】- 需求分析
  • 沃丰科技海外客服系统综合解决方案
  • 【DB2】load报错SQL3501W、SQL3109N、SQL2036N
  • 持续更新!国内免费使用 claude code 方案
  • LLaMA-Omni 深度解析:打开通往无缝人机语音交互的大门
  • C++学习笔记三
  • 使用 Docker Compose 简化 INFINI Console 与 Easysearch 环境搭建
  • 跨部门协作难以对齐项目进度,如何促进协同
  • 【动手学深度学习】4.10 实战Kaggle比赛:预测房价
  • S7-1500——(一)从入门到精通1、基于TIA 博途解析PLC程序结构(一)
  • 【04】MFC入门到精通——MFC 自己手动新添加对话框模板 并 创建对话框类
  • 从零开始学前端html篇2
  • React 编译器与性能优化:告别手动 Memoization
  • 网关助力航天喷涂:Devicenet与Modbus TCP的“跨界对话“