当前位置: 首页 > ai >正文

【ASR学习笔记】:语音识别领域基本术语

一、基础术语

  1. ASR (Automatic Speech Recognition)
    • 自动语音识别,把语音信号转换成文本的技术。
  2. VAD (Voice Activity Detection)
    • 语音活动检测,判断一段音频里哪里是说话,哪里是静音或噪音。
  3. Acoustic Model(声学模型)
    • 将语音的“声音特征”映射成概率分布,用于判断每个语音片段对应的音素(发音单元)。
  4. Language Model(语言模型)
    • 通过统计词语出现的概率,帮助识别结果更符合人类语言习惯(比如纠正听成“在家”和“在加”的问题)。
  5. Decoder(解码器)
    • 把声学模型和语言模型的结果结合起来,最终输出最可能的文本。

二、特征提取相关

  1. MFCC (Mel-Frequency Cepstral Coefficients)
    • 提取语音特征的常用方法,把声音变成模型能理解的数字特征。
  2. Spectrogram(频谱图)
    • 把音频的频率成分和变化画成图像,横轴是时间,纵轴是频率。
  3. Feature Extraction(特征提取)
    • 从原始音频中提取有用的特征信息,减少无用噪声,提高识别准确率。

三、模型架构

  1. CTC (Connectionist Temporal Classification)
    • 不需要每个音频片段都标对应文字,通过序列对齐来训练模型的算法,常用于实时语音识别。
  2. Attention Mechanism(注意力机制)
    • 模型自动关注重要的信息,提高长文本或者复杂语句的识别效果。
  3. End-to-End Model(端到端模型)
    • 不用单独的声学模型、语言模型等模块,直接从音频输入到文本输出,如Transformer、Conformer模型。
  4. Conformer
    • 一种当前效果很好的语音识别模型,结合了CNN和Transformer的优点,能更好处理语音时序特征。

四、性能指标

  1. WER (Word Error Rate)

    • 词错误率,衡量识别准确性的标准。公式:

    WER = (替换 + 插入 + 删除的词数) / 总词数

    越低越好。

  2. CER (Character Error Rate)

    • 字错误率,特别适用于中文语音识别,计算每个字的错误率。

五、实用工具和算法

  1. Beam Search
    • 一种解码算法,可以找到一组可能性最高的候选文本,而不是只给出最有可能的一个结果。
  2. Greedy Search
    • 每一步都选择概率最高的输出,但不一定是全局最优结果。
  3. Punctuation Restoration(标点恢复)
    • 在识别出来的纯文本中自动加上标点符号,提高可读性。
  4. Streaming ASR(流式识别)
    • 一边听一边识别,适合实时场景,比如在线会议字幕。
  5. Offline ASR(离线识别)
    • 等完整音频上传后,再统一识别,适合语音文件转录。
  6. Hotword Boosting(热词增强)
    • 针对特定词汇(如品牌名、人名)增加模型识别的优先级。
http://www.xdnf.cn/news/5566.html

相关文章:

  • 链表面试题6之回文结构
  • OpenCVCUDA 模块中在 GPU 上对图像或矩阵进行 边界填充(padding)函数copyMakeBorder()
  • -MAC桢-
  • Qt中解决UI线程阻塞导致弹窗无法显示的两种方法
  • Linux复习笔记(三) 网络服务配置(web)
  • Flask如何读取配置信息
  • FFmpeg 项目中的三大核心工具详解
  • 【HarmonyOS 5】鸿蒙App Linking详解
  • 【Web/HarmonyOS】采用ArkTS+Web组件开发网页嵌套的全屏应用
  • labview硬件采集卡驱动安装
  • Spark目前支持的部署模式。
  • 【ZYNQ Linux移植】5-根文件系统移植
  • C++匿名函数
  • Babylon.js学习之路《三、创建你的第一个 3D 场景:立方体、球体与平面》
  • MyBatis 动态 SQL 核心标签教程:_if_, _where_, _foreach_
  • 第六节第一部分:认识抽象类及其好处
  • 字节高效图像定制生成模型框架:DreamO论文速读
  • 【数据结构】map_set前传:二叉搜索树(C++)
  • Window、CentOs、Ubuntu 安装 docker
  • 学习黑客5 分钟深入浅出理解Windows System Configuration
  • 【免费】2005-2018年各省人均财政收支数据
  • Qt for Android申请允许管理所有文件权限
  • n8n 修改或者智能体用文档知识库创建pdf
  • SSRF相关
  • 单片机ESP32天气日历闹铃语音播报
  • 《Python星球日记》 第66天:序列建模与语言模型
  • 【类拷贝文件的运用】
  • Kubernetes控制平面组件:Kubelet 之 Static 静态 Pod
  • 添加购物车-02.代码开发
  • flutter使用命令生成BinarySize分析图