语音识别指标计算 WER
目录
CER(Character Error Rate)
WER = Word Error Rate(词错误率)
🧮 WER 计算方式
📌 示例
✅ 理解要点
CER(Character Error Rate)
语音识别中的 CER(Character Error Rate) 是衡量语音识别系统准确性的一个重要指标,表示预测文本与参考文本在字符级别上的差异程度。
CER(Character Error Rate)定义:
CER 是编辑距离(Levenshtein 距离)与参考文本字符总数的比值:
语音识别 WER 是什么意思
WER = Word Error Rate(词错误率)
在语音识别(ASR, Automatic Speech Recognition)领域,WER 是一个常用的性能评估指标,全称是:WER = Word Error Rate(词错误率)
🧮 WER 计算方式
WER 是通过比较 识别结果(Hypothesis) 和 真实文本(Reference) 之间的差异来计算的,公式如下:
WER=S+D+IN\text{WER} = \frac{S + D + I}{N}WER=NS+D+I
其中:
-
S(Substitutions):替换错误数(识别成了其他词)
-
D(Deletions):漏识别的词数
-
I(Insertions):多识别出的词数
-
N:真实文本中的词总数(即 Reference 中的词数)
📌 示例
假设真实文本是:
我 爱 自然语言处理
识别结果是:
我 喜欢 语言 处理
对比:
-
“爱” → “喜欢”:1 个替换(S)
-
“自然” 被删掉:1 个删除(D)
-
没有额外多出的词:0 个插入(I)
-
总词数 N = 4
则:
WER=1(S)+1(D)+0(I)4=0.5=50%\text{WER} = \frac{1(S)+ 1(D)+ 0(I)}{4} = 0.5 = 50\%WER=41(S)+1(D)+0(I)=0.5=50%
✅ 理解要点
-
WER 越低越好,0% 表示识别完全正确。
-
常见语音识别模型,比如 Whisper、Kaldi、Wav2Vec2,在高质量数据上 WER 可以低至 5% 以下。
-
对于方言、多语种或嘈杂环境,WER 通常会高一些。