当前位置: 首页 > backend >正文

什么是token,什么叫词嵌入

token又叫词元,即 句子被分成的一个个单词碎片。

句子:"I don't like apples."

  • 按单词分词:​​ 可能会被切成 ["I", "don't", "like", "apples", "."]这5个token。

按子词分词(更常见):​​ 可能会被切成 ["I", "do", "n't", "like", "apple", "s", "."]这7个token。这里的 "n't"是一个表示否定的常见子词单元。

词嵌入,则是对token的编码,变成一个个向量值。  它使得 词之间有所关联性,让计算机能够知道词之间的远近关系,如:

经过词嵌入模型训练后:

  • “国王”这个词会表示成一个向量,比如 [0.8, -0.2, 0.4, ..., 0.6](一个几百维的数组)

  • “王后”会表示成 [0.7, -0.1, 0.5, ..., 0.5]

  • “男人”会表示成 [0.6, 0.9, -0.3, ..., 0.1]

  • “女人”会表示成 [0.5, 0.8, -0.2, ..., 0.2]

这些值是怎么得到的呢?

是通过查询词嵌入表得到的。 词嵌入表就是所有词组词嵌入的向量组成的 矩阵,每一列是一个token变成的词向量。他是开始有个随机初始化,然后通过模型训练得到,然后最后得到能够很好预测的词嵌入表。

http://www.xdnf.cn/news/19060.html

相关文章:

  • linux系统学习(9.文件系统管理)
  • Linux Shell 编程
  • Less介绍Less变量
  • C/C++ 编程实战 -- CMake用法
  • 隧道搭建技术
  • C++/python解决OpenCV的窗口被渲染到了屏幕外,导致imshow方法无法弹出窗口问题
  • JDK12安装步骤及下载(附小白详细教程)
  • 钉钉补卡事件处理方案
  • 算法---字符串
  • FDTD_mie散射_仿真学习(2)
  • 【机器人概念设计软件操作手册】 建模技巧与最佳实践
  • 自适应RAG架构:智能检索增强生成的演进与实现
  • 前端如何使用canvas实现截图
  • Python OpenCV图像处理与深度学习:Python OpenCV入门-图像处理基础
  • Linux之Docker虚拟化技术(二)
  • Mysql系列--11、使用c/c++访问mysql服务
  • 软件安装教程(二):Pycharm安装与配置(Windows)
  • DeepSeek大模型风靡云平台,百度智能云、阿里云、腾讯云等多个平台宣布上线DeepSeek模型
  • java_web 日志配置
  • 瑞芯微RK3576开发板Android14三屏异显开发教程
  • 【项目思维】通过编写一个贪吃蛇小程序,并移植到嵌入式设备上,解析编程思维的本质
  • SAP-ABAP:SAP 数值显示格式控制:负号前置方法与最佳实践总结
  • 一般纳税人
  • JavaScript 数组核心操作实战:最值获取与排序实现(从基础到优化)
  • CSS text-decoration-thickness:精细控制文本装饰线粗细的新属性
  • 光学设计中干涉现象难预测?OAS 软件多结构干涉来解决
  • Word文档怎么打印?Word打印技巧?【图文详解】单面/双面/指定页面/逆序等Word打印选项
  • Linux学习——sqlite3
  • 【系列01】端侧AI:构建与部署高效的本地化AI模型
  • 【Linux】Make/Makefile (自动化构建):从“是什么”到“会用它”