当前位置: 首页 > ai >正文

音频算法基础(语音识别 / 降噪 / 分离)

秋招抱佛脚之作,大纲由GPT提供,内容由博主本人整理。

日更直到拿到满意的offer为止。

1. 声学与信号基础

采样率、Nyquist 定理 ★★★★★

采样率:

Nyquist定理:

短时傅里叶变换(STFT/ISTFT) ★★★★★

短时傅里叶变换:由于自然中的音频信号为在时间上连续的波形,为了便于处理,需要将其通过傅里叶变换得到离散的信号。

Mel 频率与 Mel 滤波器组 ★★★★★

MFCC(梅尔倒谱系数)、CQT(常Q变换) ★★★★★

窗函数(Hann、Hamming)与 N_FFT、Hop Length 参数含义 ★★★★★

2. 语音识别(ASR)

  • CTC 原理(对齐、空白符、Beam Search) ★★★★★

  • Attention-CTC 混合模型 ★★★★☆

  • Transducer(RNN-T)结构 ★★★★☆

  • Whisper 模型(大规模多语言语音识别) ★★★★☆

  • VAD(语音活动检测)与流式识别 ★★★★★

3. 音频增强与降噪

  • 传统方法:谱减法、Wiener 滤波 ★★★☆☆

  • 深度方法:Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆

  • 自监督降噪方法(Noisy Student、Noise2Noise) ★★★☆☆

  • 多通道阵列与波束形成(Beamforming) ★★★☆☆

4. 声源分离与多模态

  • 盲源分离(ICA) ★★★☆☆

  • 音视频联合建模(Lip reading, AV-Hubert) ★★★☆☆

  • 多模态对齐(早融合、后融合、联合嵌入) ★★★☆☆

5. 评价指标与应用

  • PESQ(感知语音质量)、STOI(可懂度指标)、SNR ★★★★★

  • WER(字错误率)、CER(字符错误率) ★★★★★

  • 端到端与模块化系统的优缺点对比 ★★★☆☆

http://www.xdnf.cn/news/16450.html

相关文章:

  • Rust:anyhow::Result 与其他 Result 类型转换
  • HTTP 与 HTTPS 的区别
  • 【C++篇】“内存泄露”的宝藏手段:智能指针
  • Neurosciences study notes[1]
  • vue2 使用liveplayer加载视频
  • CVPR 2025 | 华科精测:无需人工标注也能精准识别缺陷类别,AnomalyNCD 实现多类别缺陷自主分类
  • 机器学习、深度学习与数据挖掘:核心技术差异、应用场景与工程实践指南
  • 笔试——Day22
  • 【RK3588部署yolo】算法篇
  • Marin说PCB之POC电路layout设计仿真案例---10
  • Wndows Docker Desktop-Unexpected WSL error
  • 从视觉到智能:RTSP|RTMP推拉流模块如何助力“边缘AI系统”的闭环协同?
  • MOE 速览
  • 吃透 lambda 表达式(匿名函数)
  • 实验-静态路由
  • Polkadot 的 Web3 哲学:从乔布斯到 Gavin Wood 的数字自由传承
  • 在 CentOS 上安装 FFmpeg
  • “量子通信”
  • 初识opencv05——图像预处理4
  • python导包机制-更优方式
  • 构建你的专属区块链:深入了解 Polkadot SDK
  • 【MySQL基础篇】:MySQL常用数据类型的选择逻辑与正确使用
  • 【Python】自动化GIT提交
  • Datawhale AI夏令营 task2 笔记问题汇总收集
  • 前端实现银河粒子流动特效的技术原理与实践
  • 安装及使用vscode
  • window显示驱动开发—Direct3D 11 视频播放改进
  • TDengine 中 TDgpt 用于异常检测
  • Java 笔记 transient 用法
  • 四、计算机组成原理——第3章:存储系统