当前位置: 首页 > web >正文

中文逆文本标准化 (ITN) 标注规范

文章目录

  • 第一章:任务介绍
    • 1.1 定义
    • 1.2 标注总则
    • 1.3 标注前提
  • 第二章:标注格式与标签体系
    • 2.1 标注基本结构
    • 2.2 标签定义
    • 2.3 标注优先级
    • 2.4 符号规范
  • 第三章:标注规则详解
    • 3.1 如何界定“原数字块”
  • 第四章:“变化”标签的详细规则
    • 4.1 基数词 (Cardinal)
    • 4.2 数字串 (Digit)
    • 4.3 小数 (Decimal)
    • 4.4 分数与百分数 (Fraction & Percent)
    • 4.5 单位与度量 (Measure)
    • 4.6 日期 (Date)
    • 4.7 序数词 (Ordinal)
    • 4.8 数学运算与范围 (Math & Range)
  • 第五章:“不变化”标签的详细规则
    • 5.1 约数与模糊表达
    • 5.2 成语、俗语、诗词、口诀、称呼
    • 5.3 专有名词
    • 5.4 固定搭配与词组
    • 5.5 特定时间与周期
  • 第六章:“时间”标签的详细规则
  • 第七章:特殊与易错案例
    • 7.1 包含“多”、“余”、“几”、“左右”
    • 7.2 复合表达
    • 7.3 “一”的特殊用法
  • 第八章:附录
    • 8.1 常见单位对照表
    • 8.2 特殊符号对照表
    • 8.3 日期格式说明

第一章:任务介绍

1.1 定义

逆文本标准化(Inverse Text Normalization, ITN),或称“中文转数字”,是指将文本中的口语化、文本化的数字表达(如“一千二百三十”、“百分之五”、“十一点半”)转换为标准化的书面形式(如“1230”、“5%”、“11:30”)。

核心目标:使转换后的文本更符合书面阅读习惯,并便于后续的机器处理。

  • 示例:
    • 今天十一点十一分 -> 今天11:11
    • 我国总人口约十三点八六亿 -> 我国总人口约13.86亿

1.2 标注总则

在标注前,可以采用一个简单的判断方法:将被标注的数字词替换成另一个数字,看句子是否依然通顺且含义类别不变。

  • 正例: “我有三块钱” -> “我有十块钱”。句子通顺,"三"应被视为可转换的数字。

  • 反例: “我和你一样” -> “我和你十样”。句子不通顺,"一"在此是固定搭配的一部分,不应转换。

1.3 标注前提

  • 对于因语音识别错误或文本本身质量问题导致无法理解的句子,可以直接舍弃。
  • 标注工作应聚焦于数字相关的部分,对于与数字无关的识别错误(如人名、地名),可忽略或在最终校对时修正。

第二章:标注格式与标签体系

2.1 标注基本结构

  • 所有标注均采用统一的三段式结构:
    [原数字块_转换结果_标签]
  • 原数字块: 文本中需要被转换的、包含数字的完整片段。
  • 转换结果: 原数字块对应的标准化书面形式。
  • 标签: 从以下三个标签中选择一个:变化、不变化、时间。

2.2 标签定义

标签定义适用场景
变化数字块需要从中文形式转换为阿拉伯数字、百分号、分数等标准书面形式。绝大多数的基数词、序数词、小数、分数、度量单位、日期、数学运算等。
不变化数字块在当前语境下不应被转换,应保持原有的中文汉字形式。成语、俗语、固定搭配、专有名词、模糊约数等。
时间专门用于表示时间点的数字块,其格式特殊(如 HH:mm)。表示具体时刻的表达,如“六点半”、“十一点四十五分”。

2.3 标注优先级

类别判定冲突时,按 “时间>专用场景(如日期 / 单位)>通用数字(如基数词 / 数字串)” 优先级处理;
歧义场景(如人无法统一判定的 “北纬三十二十六”)标注为[原内容_歧义_不变]。

2.4 符号规范

所有标注符号必须使用英文符号,包括:中括号[]、下划线_、冒号:、连接符-等,避免中文符号导致格式错误。示例:

  • “我的银行卡大概还有个三万四万的样子” → “我的银行卡大概还有个[三万四万_三万四万_不变化]的样子”
  • “三十元一个” → “[三十元_30元_变化][一个_1个_变化]”

第三章:标注规则详解

3.1 如何界定“原数字块”

“原数字块”是标注的基本单位,它由数字基本形式和数字依赖字共同构成。

  • 数字基本形式: 核心的数字部分,如“三百”、“百分之五”、“一二三”。
  • 数字依赖字: 与核心数字紧密结合,共同构成一个完整语义单元的文字。常见的依赖字包括单位(米、元)、时间(年、月、点、分)、序数(第)等。

标注原则:应将数字与其依赖字作为一个整体进行标注,以确保语义完整。

  • 示例:
    • 三十元一个 -> [三十元_30元_变化][一个_1个_变化]
      • 元 是 三十 的依赖字;个 是 一 的依赖字。
    • 一九九九年 -> [一九九九年_1999年_变化]
      • 年 是 一九九九 的依赖字。
    • 十一点十八分 -> [十一点十八分_11:18_时间]
      • 点 和 分 都是时间表达的依赖字,构成一个整体。
    • 试一试 -> [试一试_试一试_不变化]
      • 一 依赖于前后的动词 试,构成固定用法。

第四章:“变化”标签的详细规则

当一个数字块符合标准书写习惯,且转换后能使句子更清晰、美观时,使用变化标签。以下是常见的应标注为变化的数字类型。

4.1 基数词 (Cardinal)

通常意义上的整数。

  • 五百五十一 -> [五百五十一_551_变化]
  • 负八万 -> [负八万_-80000_变化]
  • 三千两百万 -> [三千两百万_3200万_变化]

4.2 数字串 (Digit)

通常用于电话号码、年份、版本号、编码等的逐字读法。

  • 电话一三九八八八八 -> 电话[一三九八八八八_1398888_变化]
  • 一九九八年 -> [一九九八年_1998年_变化]
  • 房间号八九十 -> 房间号[八九十_8 9 10_变化]
    • 注意: 如果数字串中包含大于“九”的数,转换后用空格隔开,如 八九十 -> 8 9 10。

4.3 小数 (Decimal)

包含“点”的数值表达。

  • 十一点九九 -> [十一点九九_11.99_变化]
  • 圆周率是三点一四一五九 -> 圆周率是[三点一四一五九_3.14159_变化]

4.4 分数与百分数 (Fraction & Percent)

  • 五分之三 -> [五分之三_3/5_变化]
  • 一又二分之一 -> [一又二分之一_1又1/2_变化]
  • 百分之八十 -> [百分之八十_80%_变化]
  • 千分之一 -> [千分之一_1‰_变化]

4.5 单位与度量 (Measure)

数字后接可标准化的单位。应将数字和单位一同标注。

  • 五十毫升 -> [五十毫升_50ml_变化]
  • 八十千米每小时 -> [八十千米每小时_80km/h_变化]
  • 温度是零下二十度 -> 温度是[零下二十度_-20℃_变化]

4.6 日期 (Date)

不含具体时间的日期表达。

  • 十一月八日 -> [十一月八日_11月8日_变化]
  • 二零二五年九月三日 -> [二零二五年九月三日_2025年9月3日_变化]

4.7 序数词 (Ordinal)

以“第”开头的数字。

  • 第一次 -> [第一次_第1次_变化]
  • 第十五届 -> [第十五届_第15届_变化]

4.8 数学运算与范围 (Math & Range)

对夹在数字之间的运算或范围词进行符号转换。

  • 一加一等于二 -> [一_1_变化][加_+变化][一_1_变化][等于=_变化][二_2_变化]

  • 三到五天 -> [三到五天_3-5天_变化] 或 [三_3_变化][到_-_变化][五_5_变化]天

  • 比分是二比一 -> 比分是[二比一_2:1_变化]

第五章:“不变化”标签的详细规则

当数字在特定语境下形成固定含义,转换后会破坏句子美感或产生歧义时,使用不变化标签。此时转换结果与原数字块保持一致。

5.1 约数与模糊表达

表示不确定的、模糊的数字范围。

  • 他大概有三四十岁的样子 -> 他大概有[三四十_三四十_不变化]岁的样子
  • 这本书十几块钱 -> 这本书[十几_十几_不变化]块钱
  • 等了三万四万年 -> 等了[三万四万_三万四万_不变化]年

5.2 成语、俗语、诗词、口诀、称呼

数字作为固定文化符号存在。

  • 成语:七上八下 -> [七上八下_七上八下_不变化]
  • 俗语:不管三七二十一 -> [不管三七二十一_不管三七二十一_不变化]
  • 诗词:二十四桥明月夜 -> [二十四桥明月夜_二十四桥明月夜_不变化]
  • 口诀:三四十二 -> [三四十二_三四十二_不变化]
  • 称呼:二姑 -> [二姑_二姑_不变化]

5.3 专有名词

包含数字的地名、机构名、会议、术语等。

  • 地名:四川 -> [四川_四川_不变化]
  • 机构名:第一人民医院 -> [第一人民医院_第一人民医院_不变化]
  • 会议:十九大 -> [十九大_十九大_不变化]
  • 术语:二维码 -> [二维码_二维码_不变化]

5.4 固定搭配与词组

数字已融入词语,失去其独立的数值意义。

  • 我们想法一样 -> 我们想法[一样_一样_不变化]
  • 一会儿就好 -> [一会儿_一会儿_不变化]就好
  • 你试一试 -> 你[试一试_试一试_不变化]
  • 一方面…另一方面… -> [一方面_一方面_不变化]…[另一方面_另一方面_不变化]…

5.5 特定时间与周期

通常不写作阿拉伯数字的周期性时间。

  • 星期一 -> [星期一_星期一_不变化]
  • 大年初一 -> [大年初一_大年初一_不变化]
  • 十一国庆节 -> [十一_十一_不变化]国庆节

第六章:“时间”标签的详细规则

专门处理表示一天内具体时刻的表达。

  • 现在是六点 -> 现在是[六点_6:00_时间]
  • 上午十一点半 -> 上午[十一点半_11:30_时间]
  • 七点一刻 -> [七点一刻_7:15_时间]
  • 差五分八点 -> [差五分八点_7:55_时间]

第七章:特殊与易错案例

7.1 包含“多”、“余”、“几”、“左右”

规则示例
正常变化,保留“多”字。十多个 -> [十多_10多_变化]个
正常变化,保留“余”字。二十余人 -> [二十余_20余_变化]人
不变化,视为约数。十几个 -> [十几_十几_不变化]个
左右正常变化,“左右”不纳入标注块。十点左右 -> [十点_10:00_时间]左右

7.2 复合表达

当一句话中包含多种数字类型时,需仔细拆分。

  • 身高体重: 他身高一米七五一百四十斤 -> 他身高[一米七五_1.75米_变化][一百四十_140_变化]斤
  • 约数与基数词: 花费二十到三四十元 -> 花费[二十到三四十_二十到三四十_不变化]元 (因为包含约数,整体不变化)
  • 范围: 气温在二十至三十度之间 -> 气温在[二十至三十度_20-30℃_变化]之间

7.3 “一”的特殊用法

“一”的用法灵活,需特别注意语境。

  • 计数: 一个苹果 -> [一个_1个_变化]苹果 (变化)
  • 固定词: 一定 -> [一定_一定_不变化] (不变化)
  • 动作量: 看一看 -> [看一看_看一看_不变化] (不变化)
  • 序数: 第一次 -> [第一次_第1次_变化] (变化)
  • 特定称谓: 第一夫人 -> [第一夫人_第一夫人_不变化] (不变化)

第八章:附录

8.1 常见单位对照表

中文表达书面形式类型标注示例
毫升ml单位“五十毫升”→[五十毫升_50ml_变化]
伏特/伏V单位“二百二十伏”→[二百二十伏_220V_变化]
摄氏度单位“零下十度”→[零下十度_-10℃_变化]
厘米cm单位“十二厘米”→[十二厘米_12cm_变化]
毫米mm单位“六毫米”→[六毫米_6mm_变化]
公里/千米km单位“三十五公里”→[三十五公里_35km_变化]
M单位“十兆”→[十兆_10M_变化]
平方米单位“十八平方米”→[十八平方米_18㎡_变化]
千克kg单位“三点五千克”→[三点五千克_3.5kg_变化]
m单位“二十米”→[二十米_20m_变化]
(温度)度单位“三十度”→[三十度_30℃_变化]
(经纬度)度°单位“北纬三十度”→[三十度_30°_变化]
(酒精)度%单位“四十度酒”→[四十度_40%_变化]

8.2 特殊符号对照表

口语表达书面符号类型
加/加上+运算符号
减/减去-运算符号
乘/乘以×运算符号
除/除以÷运算符号
杠/横杠-分隔符
:比例符号
斜杠/分隔符
等于=等号

8.3 日期格式说明

YMD格式:{YEAR}{DATE_SEP}{MONTH}{DATE_SEP}{DAY}(如2023-05-15)
MDY格式:{MONTH}{DATE_SEP}{DAY}{DATE_SEP}{YEAR}(如05/15/2023)
DMY格式:{DAY}{DATE_SEP}{MONTH}{DATE_SEP}{YEAR}(如15.05.2023)
DATE_SEP:[/—-./]
YEAR:[1-9][0-9]{3}
MONTH:(0?[1-9]|1[0-2])
DAY:(0?[1-9]|[12][0-9]|3[01])

http://www.xdnf.cn/news/20054.html

相关文章:

  • Jmeter怎么实现接口关联?
  • 移动代理:操作原则、优势、私人使用变体的选择
  • 10 分钟掌握 Selenium 8 大元素定位法:从踩坑到精通
  • 华勤内推码
  • Alpha World赞助Hello Blockchain Thailand,AWT成为全球共识焦点
  • 联想开天X7:携手海光,开启信创PC高性能新时代
  • dvs dvfs avs avfs 低功耗技术的区别
  • uni-app与Vue3,实现3D圆柱形旋转画廊效果
  • 零基础学C++,自定义数据类型
  • 【冷知识】【Xshell 8密码解密】2025年8月19日
  • MySQL中的聚合函数与分组查询
  • SpringAI Alibaba Graph 流式对话
  • Nginx简介
  • SPI通讯协议
  • LightDock:高效蛋白质-DNA对接框架
  • 从数据孤岛到智能中枢:RAG与智能体协同架构如何重塑企业知识库
  • 代码随想录算法训练营第一天 | (二分查找类型)704.二分查找 35.探索插入位置 34.在排序数组中查找元素的第一个和最后一个位置
  • 涨粉14万,100个Coze智能体工作流模版案例:3分钟生成韩非子权谋爆款视频
  • 【C++】在 Windows 系统调用第三方程序(创建进程)
  • 专项智能练习(Photoshop软件基础)
  • mysql高级进阶(存储过程)
  • H3C UIS Cell 3020 G3服务器更换raid卡安装ONEStor记录
  • windows系统服务器测试部署springboot+vue+mysql项目
  • 企业网络安全建设三阶段实战指南
  • 商家自动运营(四)足浴店管理—东方仙盟
  • 一文掌握Redisson分布式锁
  • 【Rhino】【Python】将开放曲面转换为边界线和填充
  • [特殊字符] DA1-13 复习学习笔记
  • 极空间打造 “超级中枢”,从书签笔记到聊天分享,一键全搞定!
  • 非力扣100原题