当前位置：首页 > news >正文

【卫星通信】超低码率语音编码ULBC：EnCodec神经音频编解码器架构深度解析

news 2025/8/24 9:29:16

引言

EnCodec是由Meta AI提出的一种端到端神经音频编解码器架构，其核心目标是在保证音频质量的前提下实现高压缩比和低带宽传输。该模型通过结合卷积神经网络、残差矢量量化（Residual Vector Quantization, RVQ）、多尺度对抗训练以及Transformer熵编码，突破了传统编解码器的性能上限。以下是其架构设计的详细分析：

1. 整体架构概述

EnCodec的架构遵循标准的编码器-解码器结构，包含四个核心模块：

神经编码器（Encoder）：将输入音频波形映射为离散潜在表示。
量子化器（Quantizer）：采用残差矢量量化（RVQ）技术将浮点编码转换为离散标记。
熵编码器（Entropy Coder）：通过小型Transformer模型对量子化数据进行进一步压缩。
神经解码器（Decoder）：将潜在表示还原为时域音频波形。

训练阶段采用多损失函数优化，包括重建损失、对抗损失和量子化约束损失，确保生成音频在客观指标（如SI-SNR、ViSQOL）和主观MUSHRA评分上均表现优异。

2. 编码器架构详解

编码器架构结构如下：

2.1 输入层

输入音频格式为单通道（monophonic）和双通道（stereophonic）音频，采样率支持24kHz和48kHz。例如，对16000个时间步的16kHz音频，输入张量形状为(1, 16000)。

结构图分层说明

层级	名称	参数细节	数据维度变化 (假设输入16000时间步)
1	初始卷积层	Conv1D(1 → C=32, kernel=7, stride=1, padding=3) + ELU + 归一化	`(1, 16000)` → `(32, 16000)`
2	第1个卷积块	ResBlock: ResidualUnit(C→C=32, kernel=3) → DownConv(kernel=4, stride=2)	`(32, 16000)` → `(64, 8000)`
3	第2个卷积块	ResBlock: ResidualUnit(C→2C=64, kernel=3) → DownConv(kernel=8, stride=4)	`(64, 8000)` → `(128, 2000)`
4	第3个卷积块	ResBlock: ResidualUnit(C→2C=128, kernel=3) → DownConv(kernel=10, stride=5)	`(128, 2000)` → `(256, 400)`
5	第4个卷积块	ResBlock: ResidualUnit(C→2C=256, kernel=3) → DownConv(kernel=16, stride=8)	`(256, 400)` → `(512, 50)`
6	LSTM层	双向LSTM (输入:512 → 隐藏层:512 ×2, 层归一化)	`(512, 50)` → `(512, 50)`
7	最终卷积层	Conv1D(512 → D=64, kernel=7, stride=1, padding=3)	`(512, 50)` → `(64, 50)`
8	输出潜在编码	潜在空间表征	`(64, 50)` (对应75步/秒@24kHz)

关键计算逻辑

总下采样率计算:
- 每个卷积块的步幅 S 分别为 2, 4, 5, 8。
- 总下采样率 = 2 × 4 × 5 × 8 = 320x。
- 输入音频采样率 24kHz 时，输出潜在步长 = 24000 / 320 = 75 步/秒。
- 输入音频采样率 48kHz 时，输出潜在步长 = 48000 / 320 = 150 步/秒。
通道数翻倍逻辑:
- 每次下采样时通道数翻倍 (32→64→128→256→512)。

残差单元结构:

class ResidualUnit(nn.Module):def __init__(self, C, kernel=3):super().__init__()self.conv1 = nn.Conv1d(C, C, kernel, padding=(kernel//2))self.conv2 = nn.Conv1d(C, C, kernel, padding=(kernel//2))self.norm1 = nn.LayerNorm(C)self.norm2 = nn.LayerNorm(C)self.elu = nn.ELU()def forward(self, x):residual = xx = self.norm1(self.conv1(x)).elu()x = self.norm2(self.conv2(x))return (x + residual).elu()

结构图亮点

模块化设计：清晰划分初始卷积、残差块、上下采样、序列建模等模块。
动态通道数标注：每经过一步下采样，通道数翻倍，直观展示多尺度特征提取。
时序建模层：双向LSTM 层标注输入输出维度及层数，体现序列建模能力。
多尺度下采样：步幅 S 的递增设计（2→4→5→8），实现灵活的频谱压缩。

2.2 初始卷积层

编码器首层是1D卷积层，配置为：

输入通道：1（单声道）或2（立体声）
输出通道：C=32（默认值）
卷积核大小：kernel_size=7
步长：stride=1
填充：padding=3（保持输入长度不变）
激活函数：ELU（Exponential Linear Unit）
归一化：支持层归一化（LayerNorm）或权重归一化（WeightNorm）

该层的作用是将原始波形初步映射到32通道的高维特征空间，输出张量形状为(32, 16000)。

2.3 卷积块组（B=4）

编码器包含4个残差卷积块（B=4），每个块由两个子模块构成：

残差单元（Residual Unit）
- 双卷积结构：两个连续的1D卷积层，kernel_size=3，padding=1
- 激活函数：ELU
- 跳跃连接：输入直接与输出相加
下采样层（DownConv）
- 卷积核大小：kernel_size=2×S（S为步长）
- 步长：S分别为2、4、5、8
- 通道翻倍：输入通道数×2（如32→64→128→256→512）

下采样率与通道数变化如下：

卷积块	步长S	输出通道数	时间步压缩比
Block1	2	64	16000→8000
Block2	4	128	8000→2000
Block3	5	256	2000→400
Block4	8	512	400→50

经过四轮下采样，原始音频被压缩为50个时间步、512通道的潜在表示，压缩比达 320:1。

2.4 序列建模层

在卷积块之后，使用双向LSTM（BiLSTM）捕捉长程依赖关系：

隐藏层维度：512×2（双向）
层数：2层
序列长度：50个时间步

LSTM输出张量形状为(512, 50)，保持时间步不变但增强上下文建模能力。

2.5 最终卷积层

输出层为1D卷积层，将512通道特征映射到D=64通道（潜在编码维度），配置为：

卷积核大小：7
步长：1
填充：3（保持长度）
激活函数：ELU
输出维度：64通道×50时间步

潜在编码最终以(64, 50)张量传递给量子化器。

3. 量子化与熵编码模块

3.1 残差矢量量化（RVQ）

RVQ将浮点张量分解为多个离散码本的组合：

码本数量：K个（论文未明确数值，需参考实现）
码本嵌入维度：与潜在维度D=64匹配
逐层量化：每层去噪前一层的残差

例如，若K=5，则每个时间步输出5个离散标记，总标记数为5×50=250，按6kbps计算，每秒24kHz音频需传输250×(24/1)=6000bit。

3.2 DiffQ算法

DiffQ是RVQ的替代方案，通过可微更新优化码本，避免编码器与码本的耦合问题，提升稳定性。

3.3 Transformer熵编码器

在量子化基础上，进一步训练小型Transformer模型压缩量子标记：

层数：6层
自注意力窗口：可调（如256个标记）
训练目标：最小化量子标记的交叉熵
压缩率：最高减少 40% 带宽（如3kbps → 1.8kbps）

该模块通过增量编码（delta encoding）和上下文感知建模实现高效传输。

4. 解码器架构

解码器采用与编码器对称的反卷积结构，逐步还原时域波形：

初始卷积层：64→512通道
上采样卷积块（4个）：每块包含：
- 残差单元：类似编码器的设计
- 反卷积层：步长S=8、5、4、2，恢复时间分辨率
输出层：512→1通道卷积，生成最终音频。

解码器额外引入辅助信息，如语音端点检测（VAD）或环境噪声特征，以增强重建质量。

5. 多尺度对抗训练策略

5.1 损失函数

EnCodec的训练目标是最大化音频保真度与压缩效率，包含以下损失项：

重建损失：
- 时域重建：lf=||x−decoder(encoder(x))||1（L1损失）
- 频谱重建：lt=Σ||S(x)−S(decoder(encoder(x)))||1（Mel谱分解损失）
对抗损失：
- 生成器损失：lg=−E[Disc(decoder(quantize(encoder(x))))]
- 判别器损失：ld=E[(Disc(xreal)−Disc(xfake))^2]
量子化约束损失：
- 承诺损失：lw=||\epsilon − stop_gradient(z)||2（确保编码器输出靠近码本）

5.2 对抗训练流程与动态损失优化

EnCodec的对抗训练流程分为三个关键阶段，每个阶段通过动态损失调控和模块解耦策略，平衡重建质量、感知真实性和压缩效率之间的关系。以下为详细补充内容：

5.2.1 训练阶段划分

预训练阶段（Phase 1: Reconstruction-Only）
- 目标：使编码器-解码器-量子化器形成稳定的基础重建能力，避免对抗训练初期的梯度不稳定。
- 优化损失函数：
  $\mathcal{L} = \mathcal{L}_f + \mathcal{L}_t + \mathcal{L}_w$
- 训练策略：
  - 冻结码本：在RVQ中禁用码表更新（仅更新编码器和解码器参数）。
  - 权重衰减：对编码器/解码器施加L2正则化（权重衰减系数 $10^{-4}$ ），防止过拟合低频共振。
  - 学习率调度：使用余弦退火方案（初始学习率 $1×10−41\times10^{-4}$ ，最终降至 $1×10−51\times10^{-5}$ ）。
对抗微调阶段（Phase 2: Adversarial Fine-tuning）
- 目标：引入多尺度判别器逐步优化感知质量，减少高频伪影并增强细节还原。
- 损失函数调整：
  $\mathcal{L} = \mathcal{L}_f + \mathcal{L}_t + \mathcal{L}_w + \lambda_g \mathcal{L}_g$
  其中 $λg=0.01\lambda_g=0.01$ 为初始生成器损失权重（后文将解释动态平衡策略）。
- 判别器设计：
  - 多尺度短时傅里叶变换判别器（MS-STFTD）：
    分析多个窗长（如512和1024）的STFT幅度谱，检测伪影分布。
  - 多分辨率梅尔频谱判别器（MR-MEL-D）：
    在25个不同带宽的Mel滤波器组上计算频域差异，强化对人耳敏感频段的优化。
- 训练技巧：
  - 两阶段更新：
    每轮迭代中先固定生成器更新判别器（优化 $Ld\mathcal{L}_d$ ），再固定判别器更新生成器（优化 $Lg\mathcal{L}_g$ ）。
  - 梯度裁剪：
    对判别器权重梯度进行L2范数裁剪（阈值=1.0），防止对抗损失收敛失败。
熵编码微调阶段（Phase 3: Entropy-Aware Refinement）
- 目标：在保留高质量重建的同时，通过Transformer熵编码器压缩量子标记数，进一步降低带宽。
- 联合优化策略：
  - 冻结主网络权重：仅更新熵编码器参数，确保前期训练的感知质量不受影响。
  - 码流压缩损失：
    使用交叉熵损失优化熵编码器：
    $\mathcal{L}_e = -\sum_{i} P_{\text{true}}(z_i) \log P_{\text{pred}}(z_i)$
    其中 $z_i$ 为RVQ的离散码字， $PtrueP_{\text{true}}$ 为数据分布， $PpredP_{\text{pred}}$ 为熵编码器预测分布。
- 训练效率优化：
  - 窗口化训练：对码流进行块长度256的随机采样，降低内存占用。
  - 并行化处理：利用TPU/GPU多卡数据并行加速熵编码器训练。

5.2.2 动态损失权重平衡机制

EnCodec提出一种“梯度引导型损失分配”（Gradient-Guided Loss Balancing）策略，确保各损失项在总梯度中的贡献比例可解释且稳定：
$\frac{\partial \mathcal{L}}{\partial \theta} = \alpha \frac{\partial \mathcal{L}_f}{\partial \theta} + \beta \frac{\partial \mathcal{L}_t}{\partial \theta} + \gamma \frac{\partial \mathcal{L}_g}{\partial \theta}$
其中 $α+β+γ=1\alpha + \beta + \gamma = 1$ ， $α,β,γ\alpha, \beta, \gamma$ 为各损失项的梯度占比超参数。该方法相比传统损失加权策略具有以下优势：

解耦损失尺度：无需手动调整 $λg\lambda_g$ 的绝对值，仅需指定 $γ\gamma$ 的目标占比（如10%）。
自动补偿：训练初期 $∂Lf/∂θ\partial \mathcal{L}_f / \partial \theta$ 主导时， $α\alpha$ 自动增大；对抗损失收敛后， $γ\gamma$ 逐步接管。
反向传播稳定性：通过梯度归一化（如AdaGrad-style scaling）抑制极端值波动，适用于高动态范围信号（如鼓点音效）。

5.2.3 损失函数设计的实践考量

频谱损失的多尺度权重分配
在 $Lt\mathcal{L}_t$ 中，对不同频带的Mel滤波器采用非均匀权重：
$\mathcal{L}_t = \sum_{k=1}^K w_k ||S_k(x) - S_k(\text{decoder}(\text{quantize}(\text{encoder}(x))))||_1$
低频段（0-1kHz）权重 $w_k=1.5$ ，中频（1-4kHz） $w_k=1.0$ ，高频（>4kHz） $w_k=0.5$ ，强制模型优先修复共振峰等对语音可懂度影响大的频段。
对抗判别器的正则化
- 谱归一化（Spectral Normalization）：对判别器权重矩阵的最大奇异值进行归一化，防止梯度爆炸。
- 渐进频段激活：训练初期仅启用低频判别器（0-6kHz），逐步添加高频模块（如6-12kHz、12-24kHz），避免高频噪声干扰低频优化。
量化器的稳定性保障
对RVQ码表施加滑动平均更新（EMA Update）：
$et+1=μet+(1−μ)⋅meanx∈B(stop_gradient(zq(x))) e_{t+1} = \mu e_t + (1-\mu) \cdot \text{mean}_{x \in \mathcal{B}} (\text{stop\_gradient}(z_q(x)))$
其中 $μ=0.9\mu=0.9$ 为衰减系数， $B\mathcal{B}$ 为当前批量的编码结果。该策略避免码表嵌入向量的剧烈跳变，提升训练鲁棒性。

5.2.4 训练加速与工程实现

硬件加速策略
- 混合精度训练：使用NVIDIA Apex的amp库，FP16显存占用降低40%（从24GB→14GB），训练速度提升35%。
- 流水线并行：将编码器、解码器、判别器分配到不同GPU，实现8块A100下的线性加速比（理论值8.0→实际7.2）。
课程学习（Curriculum Learning）
按照训练难度逐步增加训练样本的复杂度：
- 第1-20轮：仅使用干净语音数据；
- 第21-50轮：加入环境噪声干扰样本；
- 第51-100轮：混合音乐、混响、高通/低通信号。
  该策略使模型在第80轮即达到MUSHRA 85分，较随机混合训练提前30轮收敛。
故障恢复机制
定期保存模型检查点（checkpoint）并验证生成音频质量。若检测到对抗训练崩溃（如MUSHRA评分骤降），自动回滚至上一稳定版本并降低 $γ\gamma$ （如由3%→1%）。

5.3 时间与频域重建目标

EnCodec在训练中通过多尺度优化辅助模型生成高质量音频，其目标函数包含两个经典重构目标：

时域L1损失（lf）
直接度量原始信号x与重建信号之间的绝对误差，要求生成波形与原始音频波形绝对对齐，公式为：
$\mathcal{L}_f = ||x - \text{decoder}(\text{quantize}(\text{encoder}(x)))||_1$
该损失优化低频共振峰与瞬态撞击的时域对齐，减少重建音频的相位失真。
频谱能量匹配（lt）
采用Mel频谱损失捕捉人类听觉对能量分布的敏感性，公式为：
$\mathcal{L}_t = \sum_{k=1}^K ||S_k(x) - S_k(\text{decoder}(\text{quantize}(\text{encoder}(x))))||_1$
其中 $S_k$ 表示第k个频带的Mel滤波器响应，K为总频段数。这一设计提升了高频共振（如摩擦音、齿音）的还原精度，弥补了L1损失在频域的不足。

6. 模型优化与工程细节

6.1 实时性与计算效率

EnCodec通过精简架构设计满足实时压缩需求：

轻量卷积块：采用小型卷积核（如kernel=3）减少滤波器运算量。
分层下采样：早期下采样大幅降低长序列运算成本（如Block4将2000→50时间步）。
LSTM替代：使用小型双向LSTM而非Transformer，降低自注意力计算开销，在CPU上实现9.8倍实时率（RTF=9.8）。

6.2 量子化器工程优化

可微变体DiffQ：支持无需直通估算器（STE）的码表更新，提升训练稳定性。
混合量化策略：动态切换RVQ与DiffQ，适应不同语料场景（如音乐高频需更精细量化）。
上下文自适应熵编码：小型Transformer（6层）通过滑动窗口（256标记）建模码流，显著压缩冗余，例如3kbps码率进一步降至1.8kbps。

6.3 多码率兼容设计

通过编码器-量子化-熵编码的模块化设计，EnCodec实现单模型多码率编码：

码本弹性扩展：调整RVQ的码数K，控制传输带宽（如K=5→3kbps，K=10→6kbps）。
自适应强度掩码：训练多个判别器（如多尺度STFTD+MSD），支持压缩质量动态调节。
缓存分发机制：熵编码层可按延迟需求选择短上下文（低延迟）或长上下文（高压缩率）编码。

7. 客观与主观质量评估

7.1 客观指标表现

EnCodec在语音增强（SE）任务的标准数据集（如VoiceBank-DEMAND）中取得领先成绩：

模型	SI-SNR (dB)	ViSQOL	适用场景
Opus (6kbps)	5.2	3.5	传统VAD
SoundStream	6.2	4.1	单纯语音
EnCodec（ RVQ）	6.7	4.38	语音/音乐

SI-SNR（信噪比）：EnCodec的6.7dB优于竞争模型（如SoundStream 6.2dB），显示更强的背景噪声抑制能力。
ViSQOL（语音质量模型）：4.38接近无损音乐感知阈值（5.0），表明重建音频的语音清晰度和自然度。
短时波动度（SRR）：EnCodec生成音频的韵律波动更接近原始音频，MOS失真评分提升12%。

7.2 人类感知评价（MUSHRA）

在双盲MUSHRA测试中，EnCodec在多个压缩粒度下表现突出：

码率（kbps）	语音MUSHRA评分	音乐MUSHRA评分
Opus 6.0	48.3±2.62	44.1±3.05
EVS 6.0	72.9±2.18	69.7±2.80
EnCodec 3.0 (DiffQ)	85.3±1.51	83.2±1.18
EnCodec 3.0 (RVQ)	89.8±1.31	87.6±1.65

3kbps语音：EnCodec-RVQ取得89.8分（接近原始音频的96.1分），远超6.0kbps EVS的72.9分。
6kbps音乐：EnCodec通过高质量LSTM建模，音乐评分达87.6分，接近无损DB基准。

7.3 压缩效率 vs. 带宽

EnCodec在24kHz与48kHz采样率下均保持最优带宽利用率：

采样率	码率 (kbps)	ENCODER RTF	DECODER RTF
24kHz	1.5	12.0	11.4
48kHz	6.0	8.5	9.2

8. 多码率兼容性与动态码控

EnCodec通过统一架构实现多粒度码率控制，其关键技术包括：

8.1 基于量子化的带宽调节

动态码表激活：通过控制残差矢量量化（RVQ）的层级深度（K值），EnCodec可在不修改模型权重的情况下切换码率。例如：
- 低码率模式（1.5kbps）：启用K=3码表，仅传输低频能量与浊音主成分。
- 中码率模式（6kbps）：K=6级量化，恢复清音摩擦段与音乐中高频谐波。
- 高码率模式（24kbps）：K=12码表，逼近CD级音质。
实验验证：在Jamendo音乐数据集测试中，EnCodec在12kbps时的音乐MUSHRA评分（87.3）已超越MP3在64kbps的84.6分。

8.2 变换域熵编码增强

小型Transformer熵编码器通过以下策略提升压缩效率：

上下文建模窗口：采用滑动窗口（默认256token）捕捉局部冗余，减少全局依赖计算。
通道感知编码：对低频子带（如前32通道）采用更高熵约束，高频子带允许更粗量化。
压缩增益：在6kbps语音场景下，该模块可进一步降低带宽至4.5kbPS（压缩率25%）。

8.3 多采样率协同

通过共享编码器-解码器权重，EnCodec支持双采样率（24kHz/48kHz）切换：

高频恢复机制：在48kHz模式下，编码器额外引入一个512通道的高频感知卷积层（kernel=3，stride=1），专门捕捉8kHz以上的高频分量。
测试结果：使用AudioSet数据集训练时，EnCodec在48kHz下对打击乐（如鼓点）的时域对齐误差降低32%，较24kHz版本提升显著。

9. 部署优化与端侧适配

为适应多样化的部署环境，EnCodec在工程层面提出多项轻量化方案：

9.1 次元张量压缩

通道剪枝：通过分析各卷积层的信道贡献度，对Block3和Block4的后半部分通道进行剪枝（剪除25%）。在3kbps语音压缩下，RTF提升至11.2（原始为9.8），MUSHRA评分仅下降1.2分。
定点化推理：采用8-bit整型量化（INT8）时，模型可在ARM架构移动端（如高通骁龙8 Gen 2）上实现15ms实时编解码延迟。

9.2 流式压缩优化

针对远程会议、直播等实时场景，EnCodec设计了低延迟模式：

因果卷积约束：将编码器所有卷积替换为因果卷积（causal convolution），避免未来信息泄露。
滑动编码块：采用重叠-添加（O-La）策略，每250ms窗口独立编码，端到端时延控制在300ms以内。
效果验证：在DNS Challenge语音数据集上，流式模式较全量模式延迟提升6倍（从3s→500ms），语音质量仅损失1.8个MUSHRA分。

9.3 容错传输设计

EnCodec在码流层嵌入纠错编码，适应弱网环境：

分码表容错：将K级RVQ标记分配到不同UDP端口传输，某一级码表丢失时，仅轻微降低频谱分辨率（如6kbps降至4.5kbps）而非整体崩溃。
对抗恢复模块：解码端预训练LSTM修复模型（LSTM-Recovery），可从丢失30%码流的音频中恢复79.2分MUSHRA质量（完整码流87.3分）。

10. 与其他神经音频编解码器的对比

10.1 与SoundStream的对比

维度	EnCodec	SoundStream
量子化方法	RVQ/DiffQ	Residual Vector Quantization
熵编码	Transformer（6层）	无单独熵编码模块
采样率支持	24kHz/48kHz	16kHz/24kHz
音乐压缩性能	48kbps接近CD音质	64kbps仍存在高频模糊
多码率灵活性	单模型动态K值控制	需训练独立模型

优势分析：EnCodec通过熵编码模块实现了更高的压缩比（如3kbps→1.8kbps），而SoundStream的无参数熵策略导致冗余度偏高。

10.2 与Lyra的对比

维度	EnCodec	Google Lyra v2
核心架构	CNN+BiLSTM+Transformer	RNN with LPC filter
码率支持下限	1.5kbps	3kbps
音乐处理能力	高保真（MUSHRA 87.6）	以语音为主（MUSHRA 79.1）
硬件兼容性	支持GPU/CPU/FPGA	仅支持CPU（ARM优化）

技术差异：Lyra依赖传统线性预测编码（LPC）重建激励信号，受限于RNN建模能力难以恢复高频细节；而EnCodec通过多尺度对抗训练直接优化频谱分布，音乐保真度显著提升。

11. 潜在挑战与改进方向

11.1 当前局限性

高维语义缺失：仅依赖音频信号压缩，未能利用上下文语义信息（如语言识别、音素边界检测）进一步提升语音传输效率。
多声道扩展难题：现有实现仅支持单声道/立体声，环绕声处理需引入空间频谱变换模块（如Ambisonics）。
版权与标准化问题：由于采用深度生成模型，EnCodec可能面临专利壁垒，阻碍其成为广泛标准（如Opus、AAC）。

11.2 未来优化路径

多模态压缩
在编码器输入端融合文本（如ASR转录）、图像或视频模态信息，动态分配带宽（如静音期间降低码率至500bps）。
神经硬件协同设计
开发专用NPU加速器，针对卷积核、LSTM及Transformer的混合架构进行芯片级优化（如采用存算一体技术降低内存带宽需求）。
基于GAN的量子化改进
引入感知增强的生成对抗网络（如HiFi-GAN作为辅助判别器），直接优化量子化过程中的感知失真，而非单纯依赖MUSHRA平均评分。
开源生态建设
推动EnCodec的标准化，联合Xiph、3GPP等组织推进其在WebRTC、5G通信等场景的应用，降低行业接入门槛。

12. 结论与行业影响

EnCodec通过将残差矢量量化、多尺度对抗训练与熵编码深度整合，重新定义了神经音频压缩的技术边界。其在语音MUSHRA评分（89.8分）、音乐压缩比（24kbps→6kbps）、实时编解码延迟（<15ms）等关键指标上均超过传统编解码器（Opus、MP3）及现有深度学习方案（Lyra、SoundStream）。未来，EnCodec有望在以下领域产生深远影响：