中文逆文本标准化 (ITN) 标注规范
文章目录
- 第一章:任务介绍
- 1.1 定义
- 1.2 标注总则
- 1.3 标注前提
- 第二章:标注格式与标签体系
- 2.1 标注基本结构
- 2.2 标签定义
- 2.3 标注优先级
- 2.4 符号规范
- 第三章:标注规则详解
- 3.1 如何界定“原数字块”
- 第四章:“变化”标签的详细规则
- 4.1 基数词 (Cardinal)
- 4.2 数字串 (Digit)
- 4.3 小数 (Decimal)
- 4.4 分数与百分数 (Fraction & Percent)
- 4.5 单位与度量 (Measure)
- 4.6 日期 (Date)
- 4.7 序数词 (Ordinal)
- 4.8 数学运算与范围 (Math & Range)
- 第五章:“不变化”标签的详细规则
- 5.1 约数与模糊表达
- 5.2 成语、俗语、诗词、口诀、称呼
- 5.3 专有名词
- 5.4 固定搭配与词组
- 5.5 特定时间与周期
- 第六章:“时间”标签的详细规则
- 第七章:特殊与易错案例
- 7.1 包含“多”、“余”、“几”、“左右”
- 7.2 复合表达
- 7.3 “一”的特殊用法
- 第八章:附录
- 8.1 常见单位对照表
- 8.2 特殊符号对照表
- 8.3 日期格式说明
第一章:任务介绍
1.1 定义
逆文本标准化(Inverse Text Normalization, ITN),或称“中文转数字”,是指将文本中的口语化、文本化的数字表达(如“一千二百三十”、“百分之五”、“十一点半”)转换为标准化的书面形式(如“1230”、“5%”、“11:30”)。
核心目标:使转换后的文本更符合书面阅读习惯,并便于后续的机器处理。
- 示例:
- 今天十一点十一分 -> 今天11:11
- 我国总人口约十三点八六亿 -> 我国总人口约13.86亿
1.2 标注总则
在标注前,可以采用一个简单的判断方法:将被标注的数字词替换成另一个数字,看句子是否依然通顺且含义类别不变。
-
正例: “我有三块钱” -> “我有十块钱”。句子通顺,"三"应被视为可转换的数字。
-
反例: “我和你一样” -> “我和你十样”。句子不通顺,"一"在此是固定搭配的一部分,不应转换。
1.3 标注前提
- 对于因语音识别错误或文本本身质量问题导致无法理解的句子,可以直接舍弃。
- 标注工作应聚焦于数字相关的部分,对于与数字无关的识别错误(如人名、地名),可忽略或在最终校对时修正。
第二章:标注格式与标签体系
2.1 标注基本结构
- 所有标注均采用统一的三段式结构:
[原数字块_转换结果_标签] - 原数字块: 文本中需要被转换的、包含数字的完整片段。
- 转换结果: 原数字块对应的标准化书面形式。
- 标签: 从以下三个标签中选择一个:变化、不变化、时间。
2.2 标签定义
标签 | 定义 | 适用场景 |
---|---|---|
变化 | 数字块需要从中文形式转换为阿拉伯数字、百分号、分数等标准书面形式。 | 绝大多数的基数词、序数词、小数、分数、度量单位、日期、数学运算等。 |
不变化 | 数字块在当前语境下不应被转换,应保持原有的中文汉字形式。 | 成语、俗语、固定搭配、专有名词、模糊约数等。 |
时间 | 专门用于表示时间点的数字块,其格式特殊(如 HH:mm)。 | 表示具体时刻的表达,如“六点半”、“十一点四十五分”。 |
2.3 标注优先级
类别判定冲突时,按 “时间>专用场景(如日期 / 单位)>通用数字(如基数词 / 数字串)” 优先级处理;
歧义场景(如人无法统一判定的 “北纬三十二十六”)标注为[原内容_歧义_不变]。
2.4 符号规范
所有标注符号必须使用英文符号,包括:中括号[]、下划线_、冒号:、连接符-等,避免中文符号导致格式错误。示例:
- “我的银行卡大概还有个三万四万的样子” → “我的银行卡大概还有个[三万四万_三万四万_不变化]的样子”
- “三十元一个” → “[三十元_30元_变化][一个_1个_变化]”
第三章:标注规则详解
3.1 如何界定“原数字块”
“原数字块”是标注的基本单位,它由数字基本形式和数字依赖字共同构成。
- 数字基本形式: 核心的数字部分,如“三百”、“百分之五”、“一二三”。
- 数字依赖字: 与核心数字紧密结合,共同构成一个完整语义单元的文字。常见的依赖字包括单位(米、元)、时间(年、月、点、分)、序数(第)等。
标注原则:应将数字与其依赖字作为一个整体进行标注,以确保语义完整。
- 示例:
- 三十元一个 -> [三十元_30元_变化][一个_1个_变化]
- 元 是 三十 的依赖字;个 是 一 的依赖字。
- 一九九九年 -> [一九九九年_1999年_变化]
- 年 是 一九九九 的依赖字。
- 十一点十八分 -> [十一点十八分_11:18_时间]
- 点 和 分 都是时间表达的依赖字,构成一个整体。
- 试一试 -> [试一试_试一试_不变化]
- 一 依赖于前后的动词 试,构成固定用法。
- 三十元一个 -> [三十元_30元_变化][一个_1个_变化]
第四章:“变化”标签的详细规则
当一个数字块符合标准书写习惯,且转换后能使句子更清晰、美观时,使用变化标签。以下是常见的应标注为变化的数字类型。
4.1 基数词 (Cardinal)
通常意义上的整数。
- 五百五十一 -> [五百五十一_551_变化]
- 负八万 -> [负八万_-80000_变化]
- 三千两百万 -> [三千两百万_3200万_变化]
4.2 数字串 (Digit)
通常用于电话号码、年份、版本号、编码等的逐字读法。
- 电话一三九八八八八 -> 电话[一三九八八八八_1398888_变化]
- 一九九八年 -> [一九九八年_1998年_变化]
- 房间号八九十 -> 房间号[八九十_8 9 10_变化]
- 注意: 如果数字串中包含大于“九”的数,转换后用空格隔开,如 八九十 -> 8 9 10。
4.3 小数 (Decimal)
包含“点”的数值表达。
- 十一点九九 -> [十一点九九_11.99_变化]
- 圆周率是三点一四一五九 -> 圆周率是[三点一四一五九_3.14159_变化]
4.4 分数与百分数 (Fraction & Percent)
- 五分之三 -> [五分之三_3/5_变化]
- 一又二分之一 -> [一又二分之一_1又1/2_变化]
- 百分之八十 -> [百分之八十_80%_变化]
- 千分之一 -> [千分之一_1‰_变化]
4.5 单位与度量 (Measure)
数字后接可标准化的单位。应将数字和单位一同标注。
- 五十毫升 -> [五十毫升_50ml_变化]
- 八十千米每小时 -> [八十千米每小时_80km/h_变化]
- 温度是零下二十度 -> 温度是[零下二十度_-20℃_变化]
4.6 日期 (Date)
不含具体时间的日期表达。
- 十一月八日 -> [十一月八日_11月8日_变化]
- 二零二五年九月三日 -> [二零二五年九月三日_2025年9月3日_变化]
4.7 序数词 (Ordinal)
以“第”开头的数字。
- 第一次 -> [第一次_第1次_变化]
- 第十五届 -> [第十五届_第15届_变化]
4.8 数学运算与范围 (Math & Range)
对夹在数字之间的运算或范围词进行符号转换。
-
一加一等于二 -> [一_1_变化][加_+变化][一_1_变化][等于=_变化][二_2_变化]
-
三到五天 -> [三到五天_3-5天_变化] 或 [三_3_变化][到_-_变化][五_5_变化]天
-
比分是二比一 -> 比分是[二比一_2:1_变化]
第五章:“不变化”标签的详细规则
当数字在特定语境下形成固定含义,转换后会破坏句子美感或产生歧义时,使用不变化标签。此时转换结果与原数字块保持一致。
5.1 约数与模糊表达
表示不确定的、模糊的数字范围。
- 他大概有三四十岁的样子 -> 他大概有[三四十_三四十_不变化]岁的样子
- 这本书十几块钱 -> 这本书[十几_十几_不变化]块钱
- 等了三万四万年 -> 等了[三万四万_三万四万_不变化]年
5.2 成语、俗语、诗词、口诀、称呼
数字作为固定文化符号存在。
- 成语:七上八下 -> [七上八下_七上八下_不变化]
- 俗语:不管三七二十一 -> [不管三七二十一_不管三七二十一_不变化]
- 诗词:二十四桥明月夜 -> [二十四桥明月夜_二十四桥明月夜_不变化]
- 口诀:三四十二 -> [三四十二_三四十二_不变化]
- 称呼:二姑 -> [二姑_二姑_不变化]
5.3 专有名词
包含数字的地名、机构名、会议、术语等。
- 地名:四川 -> [四川_四川_不变化]
- 机构名:第一人民医院 -> [第一人民医院_第一人民医院_不变化]
- 会议:十九大 -> [十九大_十九大_不变化]
- 术语:二维码 -> [二维码_二维码_不变化]
5.4 固定搭配与词组
数字已融入词语,失去其独立的数值意义。
- 我们想法一样 -> 我们想法[一样_一样_不变化]
- 一会儿就好 -> [一会儿_一会儿_不变化]就好
- 你试一试 -> 你[试一试_试一试_不变化]
- 一方面…另一方面… -> [一方面_一方面_不变化]…[另一方面_另一方面_不变化]…
5.5 特定时间与周期
通常不写作阿拉伯数字的周期性时间。
- 星期一 -> [星期一_星期一_不变化]
- 大年初一 -> [大年初一_大年初一_不变化]
- 十一国庆节 -> [十一_十一_不变化]国庆节
第六章:“时间”标签的详细规则
专门处理表示一天内具体时刻的表达。
- 现在是六点 -> 现在是[六点_6:00_时间]
- 上午十一点半 -> 上午[十一点半_11:30_时间]
- 七点一刻 -> [七点一刻_7:15_时间]
- 差五分八点 -> [差五分八点_7:55_时间]
第七章:特殊与易错案例
7.1 包含“多”、“余”、“几”、“左右”
词 | 规则 | 示例 |
---|---|---|
多 | 正常变化,保留“多”字。 | 十多个 -> [十多_10多_变化]个 |
余 | 正常变化,保留“余”字。 | 二十余人 -> [二十余_20余_变化]人 |
几 | 不变化,视为约数。 | 十几个 -> [十几_十几_不变化]个 |
左右 | 正常变化,“左右”不纳入标注块。 | 十点左右 -> [十点_10:00_时间]左右 |
7.2 复合表达
当一句话中包含多种数字类型时,需仔细拆分。
- 身高体重: 他身高一米七五一百四十斤 -> 他身高[一米七五_1.75米_变化][一百四十_140_变化]斤
- 约数与基数词: 花费二十到三四十元 -> 花费[二十到三四十_二十到三四十_不变化]元 (因为包含约数,整体不变化)
- 范围: 气温在二十至三十度之间 -> 气温在[二十至三十度_20-30℃_变化]之间
7.3 “一”的特殊用法
“一”的用法灵活,需特别注意语境。
- 计数: 一个苹果 -> [一个_1个_变化]苹果 (变化)
- 固定词: 一定 -> [一定_一定_不变化] (不变化)
- 动作量: 看一看 -> [看一看_看一看_不变化] (不变化)
- 序数: 第一次 -> [第一次_第1次_变化] (变化)
- 特定称谓: 第一夫人 -> [第一夫人_第一夫人_不变化] (不变化)
第八章:附录
8.1 常见单位对照表
中文表达 | 书面形式 | 类型 | 标注示例 |
---|---|---|---|
毫升 | ml | 单位 | “五十毫升”→[五十毫升_50ml_变化] |
伏特/伏 | V | 单位 | “二百二十伏”→[二百二十伏_220V_变化] |
摄氏度 | ℃ | 单位 | “零下十度”→[零下十度_-10℃_变化] |
厘米 | cm | 单位 | “十二厘米”→[十二厘米_12cm_变化] |
毫米 | mm | 单位 | “六毫米”→[六毫米_6mm_变化] |
公里/千米 | km | 单位 | “三十五公里”→[三十五公里_35km_变化] |
兆 | M | 单位 | “十兆”→[十兆_10M_变化] |
平方米 | ㎡ | 单位 | “十八平方米”→[十八平方米_18㎡_变化] |
千克 | kg | 单位 | “三点五千克”→[三点五千克_3.5kg_变化] |
米 | m | 单位 | “二十米”→[二十米_20m_变化] |
(温度)度 | ℃ | 单位 | “三十度”→[三十度_30℃_变化] |
(经纬度)度 | ° | 单位 | “北纬三十度”→[三十度_30°_变化] |
(酒精)度 | % | 单位 | “四十度酒”→[四十度_40%_变化] |
8.2 特殊符号对照表
口语表达 | 书面符号 | 类型 |
---|---|---|
加/加上 | + | 运算符号 |
减/减去 | - | 运算符号 |
乘/乘以 | × | 运算符号 |
除/除以 | ÷ | 运算符号 |
杠/横杠 | - | 分隔符 |
比 | : | 比例符号 |
斜杠 | / | 分隔符 |
等于 | = | 等号 |
8.3 日期格式说明
YMD格式:{YEAR}{DATE_SEP}{MONTH}{DATE_SEP}{DAY}(如2023-05-15)
MDY格式:{MONTH}{DATE_SEP}{DAY}{DATE_SEP}{YEAR}(如05/15/2023)
DMY格式:{DAY}{DATE_SEP}{MONTH}{DATE_SEP}{YEAR}(如15.05.2023)
DATE_SEP:[/—-./]
YEAR:[1-9][0-9]{3}
MONTH:(0?[1-9]|1[0-2])
DAY:(0?[1-9]|[12][0-9]|3[01])