音频算法基础(语音识别 / 降噪 / 分离)
秋招抱佛脚之作,大纲由GPT提供,内容由博主本人整理。
日更直到拿到满意的offer为止。
1. 声学与信号基础
采样率、Nyquist 定理 ★★★★★
采样率:
Nyquist定理:
短时傅里叶变换(STFT/ISTFT) ★★★★★
短时傅里叶变换:由于自然中的音频信号为在时间上连续的波形,为了便于处理,需要将其通过傅里叶变换得到离散的信号。
Mel 频率与 Mel 滤波器组 ★★★★★
MFCC(梅尔倒谱系数)、CQT(常Q变换) ★★★★★
窗函数(Hann、Hamming)与 N_FFT、Hop Length 参数含义 ★★★★★
2. 语音识别(ASR)
CTC 原理(对齐、空白符、Beam Search)
★★★★★
Attention-CTC 混合模型
★★★★☆
Transducer(RNN-T)结构
★★★★☆
Whisper 模型(大规模多语言语音识别)
★★★★☆
VAD(语音活动检测)与流式识别
★★★★★
3. 音频增强与降噪
传统方法:谱减法、Wiener 滤波
★★★☆☆
深度方法:Conv-TasNet、Demucs、DCCRN、SEGAN
★★★★☆
自监督降噪方法(Noisy Student、Noise2Noise)
★★★☆☆
多通道阵列与波束形成(Beamforming)
★★★☆☆
4. 声源分离与多模态
盲源分离(ICA)
★★★☆☆
音视频联合建模(Lip reading, AV-Hubert)
★★★☆☆
多模态对齐(早融合、后融合、联合嵌入)
★★★☆☆
5. 评价指标与应用
PESQ(感知语音质量)、STOI(可懂度指标)、SNR
★★★★★
WER(字错误率)、CER(字符错误率)
★★★★★
端到端与模块化系统的优缺点对比
★★★☆☆