从“无差别降噪”到“精准语音保留”:非因果优化技术为助听设备和耳机降噪注入新活力
在复杂环境中保持清晰语音感知一直是助听设备与消费级耳机的核心挑战。传统主动降噪(ANC)技术虽能抑制环境噪声,但会无差别削弱所有声音,导致用户难以听清目标方向的语音(如对话者)。近年来,开放式耳机因佩戴舒适、减少耳道堵塞效应等优势备受关注,但其部分开放的设计使得噪声控制更为复杂。
针对这一问题,德国奥尔登堡大学的研究团队提出了一种基于非因果优化的空间选择性主动降噪(SSANC)技术,显著提升了噪声抑制与语音保真度的平衡。
论文链接:https://arxiv.org/pdf/2505.10372
研究团队发现,传统因果性相对脉冲响应(ReIRs)模型因受限于物理延迟,难以精确表征目标声源的传递特性。为此,他们创新性地引入非因果ReIRs,通过建模声源的反向时间响应,更准确地描述声波传播路径,从而优化控制滤波器的设计。
具有 K 个外部麦克风、1 个内部误差麦克风和 1 个扬声器(即次级声源)的有源降噪系统方框图。
研究设计
研究采用了一对开放式耳机原型,配备4个外置麦克风(用于采集环境声信号)、1个内置误差麦克风(贴近耳膜,监测降噪效果)及 1 个扬声器(作为次级声源生成抗噪声)。
在算法优化方面,通过非因果相对脉冲响应矩阵H,来刻画目标声源和各个麦克风之间的声学传递关系。这样做的好处是允许滤波器在时间轴上“超前”响应,这样一来,就能更灵活地去匹配目标语音的相位和幅度特性。
整个优化过程,就是以最小化内部误差麦克风信号功率为目标,同时,还通过一些约束条件,确保目标语音成分
能被准确保留,用公式表示就是
。
实验验证
为了验证该设计的有效性,研究人员基于GRAS 45BB12 KEMAR 人工头模拟器,在两种典型的声学场景里做了测试。第一种场景,有目标语音从 0° 方向传来,同时还有一个干扰语音从 45° 方向传来;第二种场景更复杂些,目标语音还是从 0° 方向来,但是周围有五个不同方向的噪声源,分别在 45°、90°、135°、255°、330°。
(a)开放式可听设备示意图。(b)第一声学场景:目标语音源位于 0°,非期望语音源位于 45°。(c)第二声学场景:目标语音源位于 0°,五个噪声源分别位于 45°、90°、135°、255° 和 330°。
实验采用了 VCTK 语音数据集和 NOISEX - 92 噪声库,通过语音失真度(SDintellig)、降噪量(NR)、信噪比提升(ΔSNR)等指标来评估性能。
关键结果
实验表明,与传统的因果设计相比,非因果优化在全场景下均展现更优性能:
在第一模拟场景中,不同延迟 Δ 下的语音失真、降噪量和信噪比改善情况。
在第二模拟场景中,不同延迟 Δ 下的语音失真、降噪量和信噪比改善情况。
1.语音失真抑制:在场景一中,当非因果阶数La=22时,语音失真度从因果设计的约 -15 dB 降至 -24 dB,降幅达 60%;场景二中,失真度从 -15 dB 降至 -26 dB,进一步验证鲁棒性。
2.降噪与信噪比提升:因果设计在场景一中的降噪量为 15-17 dB,非因果设计虽未显著提升降噪量,但通过更低的失真实现信噪比提升从 14 dB 增至 17 dB;在更复杂的场景二中,非因果设计的降噪量从 6 dB 提升至 9.5 dB,信噪比提升翻倍(3 dB→6 dB)。
3.延迟鲁棒性:因果设计需严格匹配声学延迟(如 4 采样点),而非因果设计在延迟范围 Δ=4-80 采样点内均保持稳定性能,显著降低系统对延迟参数的敏感性。
创新点
1.理论突破:首次将非因果相对脉冲响应引入空间选择性降噪算法,证明非因果建模可更准确地表征目标声源特性,为算法设计提供新维度。
2.工程优化:通过灵活调整非因果阶数 La,在保证降噪效果的同时大幅降低语音失真,解决了传统ANC技术“误杀”目标语音的核心矛盾。
3.场景适配:针对开放式设备的声学特性优化,在保留环境感知能力的同时提升复杂场景下的语音清晰度,为助听器、智能耳机等设备的实用化提供技术支撑。
未来展望
该研究为开放式可听设备的降噪技术开辟了新路径,其提出的非因果优化框架有望推动智能声学设备在医疗(助听器)、消费电子(降噪耳机)、通信(语音增强)等领域的应用革新。团队表示,未来将聚焦算法轻量化设计与真实场景验证,探索非因果模型与深度学习技术的结合,进一步提升系统在动态声学环境中的自适应能力。