当前位置：首页 > ai >正文

LLM词编码机制：词映射

ai 2025/7/2 19:52:35

LLM词编码机制：词映射

基于 BERT 架构的分词器对“中国首都”进行编码
在这里插入图片描述

各部分含义

1. `input_ids`

input_ids 是将输入文本分词后，每个词元（token）对应在词表中的索引。在 BERT 及其相关模型里，通常会有一些特殊的 token 索引，常见的有：

101：表示分类标记 [CLS]，一般位于序列的起始位置，用于分类任务。
102：表示分隔标记 [SEP]，用于分隔不同的句子。
100：表示未知词元 [UNK]，当遇到词表中不存在的词时会用它来替代。

对于 array([[ 101, 1746, 1799, 100, 1961, 1994, 102]])，整体是一个二维数组，这

http://www.xdnf.cn/news/4524.html

相关文章：

数据结构、刷leetcode返航版--二分【有序】5/7

HPDDM库使用指南与示例

力扣刷题[特殊字符]

力扣-hot100(旋转图像)

MCP系列（一）什么是MCP?

yolov8n-obb训练rknn模型

解决二分类问题常用的模型以及优缺点和使用场景（二）

重生之我在2024学Fine-tuning

系统 Python 与 Conda 环境的灵活切换

前端面经-VUE3篇（五）--内置组件

【计算机架构】RISC（精简指令集计算机）架构

ABAP使用GET_TAX_PERCENTAGE 函数取税率

手写 Vue 源码 === 完善依赖追踪与触发更新

FPGA 纯逻辑NVME raid0 IP核

通配符 DNS 记录：应用场景与相关风险

SWiRL：数据合成、多步推理与工具使用

[吾爱出品][Windows] 产品销售管理系统2.0

Java UUID生成如何保证唯一性？深入解析与最佳实践

【Redis】C++如何使用redis

java中ArrayList扩容机制的解析

转换算子和行动算子的区别

扩散模型（Diffusion Models）的革命性进展

智算中心的搭建标准

Sat2Density论文详解——卫星-地面图像生成

@Transactional注解的使用

LangChain第三讲:大模型的输出如何格式化成字符串?

DIFY教程第五弹:科研论文翻译与SEO翻译应用

简单的基于关键词匹配的 QA 系统示例

ICode国际青少年编程竞赛—Python—4级训练场—复杂嵌套循环