当前位置：首页 > ai >正文

音频算法基础（语音识别 / 降噪 / 分离）

ai 2025/7/31 19:22:15

秋招抱佛脚之作，大纲由GPT提供，内容由博主本人整理。

日更直到拿到满意的offer为止。

1. 声学与信号基础

采样率、Nyquist 定理 `★★★★★`

采样率：

Nyquist定理：

短时傅里叶变换（STFT/ISTFT） `★★★★★`

短时傅里叶变换：由于自然中的音频信号为在时间上连续的波形，为了便于处理，需要将其通过傅里叶变换得到离散的信号。

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） ★★★★★
Attention-CTC 混合模型 ★★★★☆
Transducer（RNN-T）结构 ★★★★☆
Whisper 模型（大规模多语言语音识别） ★★★★☆
VAD（语音活动检测）与流式识别 ★★★★★

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 ★★★☆☆
深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆
自监督降噪方法（Noisy Student、Noise2Noise） ★★★☆☆
多通道阵列与波束形成（Beamforming） ★★★☆☆

4. 声源分离与多模态

盲源分离（ICA） ★★★☆☆
音视频联合建模（Lip reading, AV-Hubert） ★★★☆☆
多模态对齐（早融合、后融合、联合嵌入） ★★★☆☆

5. 评价指标与应用

PESQ（感知语音质量）、STOI（可懂度指标）、SNR ★★★★★
WER（字错误率）、CER（字符错误率） ★★★★★
端到端与模块化系统的优缺点对比 ★★★☆☆

查看全文

http://www.xdnf.cn/news/16450.html

Rust：anyhow::Result 与其他 Result 类型转换

HTTP 与 HTTPS 的区别

【C++篇】“内存泄露”的宝藏手段：智能指针

Neurosciences study notes[1]

vue2 使用liveplayer加载视频

CVPR 2025 | 华科精测：无需人工标注也能精准识别缺陷类别，AnomalyNCD 实现多类别缺陷自主分类

机器学习、深度学习与数据挖掘：核心技术差异、应用场景与工程实践指南

笔试——Day22

【RK3588部署yolo】算法篇

Marin说PCB之POC电路layout设计仿真案例---10

Wndows Docker Desktop-Unexpected WSL error

从视觉到智能：RTSP|RTMP推拉流模块如何助力“边缘AI系统”的闭环协同？

MOE 速览

吃透 lambda 表达式（匿名函数）

实验-静态路由

Polkadot 的 Web3 哲学：从乔布斯到 Gavin Wood 的数字自由传承

构建你的专属区块链：深入了解 Polkadot SDK

【MySQL基础篇】：MySQL常用数据类型的选择逻辑与正确使用

【Python】自动化GIT提交

Datawhale AI夏令营 task2 笔记问题汇总收集

前端实现银河粒子流动特效的技术原理与实践

安装及使用vscode

window显示驱动开发—Direct3D 11 视频播放改进

TDengine 中 TDgpt 用于异常检测

Java 笔记 transient 用法

四、计算机组成原理——第3章：存储系统

音频算法基础（语音识别 / 降噪 / 分离）

1. 声学与信号基础

采样率、Nyquist 定理 `★★★★★`

短时傅里叶变换（STFT/ISTFT） `★★★★★`

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） `★★★★★`

Attention-CTC 混合模型 `★★★★☆`

Transducer（RNN-T）结构 `★★★★☆`

Whisper 模型（大规模多语言语音识别） `★★★★☆`

VAD（语音活动检测）与流式识别 `★★★★★`

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 `★★★☆☆`

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN `★★★★☆`

自监督降噪方法（Noisy Student、Noise2Noise） `★★★☆☆`

多通道阵列与波束形成（Beamforming） `★★★☆☆`

4. 声源分离与多模态

盲源分离（ICA） `★★★☆☆`

音视频联合建模（Lip reading, AV-Hubert） `★★★☆☆`

多模态对齐（早融合、后融合、联合嵌入） `★★★☆☆`

5. 评价指标与应用

相关文章：

1. 声学与信号基础

采样率、Nyquist 定理 ★★★★★

短时傅里叶变换（STFT/ISTFT） ★★★★★

Mel 频率与 Mel 滤波器组 ★★★★★

MFCC（梅尔倒谱系数）、CQT（常Q变换） ★★★★★

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 ★★★★★

2. 语音识别（ASR）

CTC 原理（对齐、空白符、Beam Search） ★★★★★

Attention-CTC 混合模型 ★★★★☆

Transducer（RNN-T）结构 ★★★★☆

Whisper 模型（大规模多语言语音识别） ★★★★☆

VAD（语音活动检测）与流式识别 ★★★★★

3. 音频增强与降噪

传统方法：谱减法、Wiener 滤波 ★★★☆☆

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN ★★★★☆

自监督降噪方法（Noisy Student、Noise2Noise） ★★★☆☆

多通道阵列与波束形成（Beamforming） ★★★☆☆

4. 声源分离与多模态

盲源分离（ICA） ★★★☆☆

音视频联合建模（Lip reading, AV-Hubert） ★★★☆☆

多模态对齐（早融合、后融合、联合嵌入） ★★★☆☆

5. 评价指标与应用

相关文章：

采样率、Nyquist 定理 `★★★★★`

短时傅里叶变换（STFT/ISTFT） `★★★★★`

Mel 频率与 Mel 滤波器组 `★★★★★`

MFCC（梅尔倒谱系数）、CQT（常Q变换） `★★★★★`

窗函数（Hann、Hamming）与 N_FFT、Hop Length 参数含义 `★★★★★`

CTC 原理（对齐、空白符、Beam Search） `★★★★★`

Attention-CTC 混合模型 `★★★★☆`

Transducer（RNN-T）结构 `★★★★☆`

Whisper 模型（大规模多语言语音识别） `★★★★☆`

VAD（语音活动检测）与流式识别 `★★★★★`

传统方法：谱减法、Wiener 滤波 `★★★☆☆`

深度方法：Conv-TasNet、Demucs、DCCRN、SEGAN `★★★★☆`

自监督降噪方法（Noisy Student、Noise2Noise） `★★★☆☆`

多通道阵列与波束形成（Beamforming） `★★★☆☆`

盲源分离（ICA） `★★★☆☆`

音视频联合建模（Lip reading, AV-Hubert） `★★★☆☆`

多模态对齐（早融合、后融合、联合嵌入） `★★★☆☆`