当前位置：首页 > news >正文

[AI]怎么计算中文被bert模型切分的tokens数量

news 2025/7/5 1:34:03

1. 中文BERT的Tokenization原理

2. 使用Hugging Face库计算Token数

3. 特殊情况处理

4. 注意事项

在BERT模型中，计算中文文本的Token数需要根据具体的中文BERT分词器（Tokenizer）来处理。以下是详细的步骤和示例：

1. 中文BERT的Tokenization原理

按字切分（Char-level）：大多数中文BERT模型会将每个汉字视为一个独立的Token，例如“牛马”会被分成["牛", "马"]（2个Token）。
结合子词切分（Subword）：部分中文BERT模型可能对某些词进行子词拆分，例如生僻词“魑魅魍魉”可能被拆分为["魑", "##魅", "##魍", "##魉"]（4个Token）。
特殊标记：BERT会自动添加[CLS]、[SEP]等特殊标记，每个占1个Token。

2. 使用Hugging Face库计算Token数

通过transformers库中的BERT分词器可以快速实现：

步骤

安装库：

conda install transformers

加载中文BERT分词器：

tokenizer = BertTokenizer.from_pretrained(r"D:\06_work_soft\AI\model\bge-large-zh-v1.5")
text = "英文空格会被保留为单独Token"
tokens = tokenizer.tokenize(text)
token_ids = tokenizer.encode(text, add_special_tokens=True)
print("Tokens:", tokens)
print("Token数（含特殊标记）:", len(token_ids))
print("Token数（不含特殊标记）:", len(tokens))

输出示例

Tokens: ['英', '文', '空', '格', '会', '被', '保', '留', '为', '单', '独', 'to', '##ken']

Token数（含特殊标记）: 15

Token数（不含特殊标记）: 13

3. 特殊情况处理

（1）长文本截断

BERT最大支持512个Token（含特殊标记）。若文本超长，需手动截断：

max_length = 512truncated_text = tokenizer.encode(text,max_length=max_length,truncation=True,add_special_tokens=True)

（2）子词拆分

如果使用某些中文BERT变体（如BERT-wwm），可能遇到子词拆分：

text = "魑魅魍魉"

tokens = tokenizer.tokenize(text) # 输出可能是['魑', '##魅', '##魍', '##魉']

print("Token数:", len(tokens)) # 输出4

4. 注意事项

模型差异：不同中文BERT模型（如bert-base-chinese、hfl/chinese-bert-wwm）的分词方式可能不同。
空格处理：英文空格会被保留为单独Token（如"hello world"会被拆分为["hello", "world"]），但中文文本中的空格通常会被忽略。
标点符号：中文标点（如句号、逗号）每个占1个Token。

总结

通过transformers库的BertTokenizer可以准确计算中文文本的BERT Token数。关键点：

中文默认按字切分，少数情况按子词拆分。
特殊标记（如[CLS]、[SEP]）会额外增加2个Token。

查看全文

http://www.xdnf.cn/news/240265.html

TC8：SOMEIP_ETS_021-022

产品VP简历模板案例

# 基于 Python 和 jieba 的中文文本自动摘要工具

ChipCN IDE KF32 导入工程后，无法编译的问题

探秘明远智睿SSD2351开发板在HMI领域的独特魅力

2025第八届数字中国峰会启幕 | 思特奇以数智力量，助推数字中国建设

navicat中导出数据表结构并在word更改为三线表（适用于navicat导不出doc）

Ollama 安装 QWen3 及配置外网访问指南

近期汇报

springboot框架常用配置

在柯希霍夫积分法偏移成像中，消除数据采集和地下构造（如深浅孔径差异）导致的叠加次数不均匀会引起成像剖面强度差异

【STM32单片机】#11.5 I2C通信（硬件读写）

TM1668芯片学习心得三

Qwen3-32B的幻觉问题

Windows系统安装Docker（Win10系统升级，然后安装）

UE 像素和线框盒子材质

【AI图像创作变现】08 变现渠道—间接获客：让客户主动找上门

广州创科——湖北房县汪家河水库除险加固信息化工程

【Android】轻松实现实时FPS功能

[Survey] Image Segmentation in Foundation Model Era: A Survey

AI赋能烟草工艺革命：虫情监测步入智能化时代

MySQL中ROW_NUMBER() OVER的用法以及使用场景

【Java函数式编程-58.1】深入理解Java中的Consumer函数式接口

冠军之选，智启未来——解码威码逊的品牌传奇与冠军代言故事

1. 中文BERT的Tokenization原理

2. 使用Hugging Face库计算Token数

3. 特殊情况处理

4. 注意事项

相关文章：