当前位置：首页 > ds >正文

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

ds 2025/8/22 19:36:25

kaiming 文章的code
paper

abstract

LLM 预测连续embedding，直接接DiT。和kaiming-Autoregressive Image Generation without Vector Quantization的文章思路一样。- LLM是casual attention，和diffusion 一起训练，相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches；只有diffusion loss+stop loss；
离散token 更适用于文本任务，图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好（casual attention)，要么计算开销很大。

method

在这里插入图片描述

model

VAE 训练得到连续embedding；decoder 用bigVAGN 重建得到音频；24k 音频编码成40hz，dim=64
LocDiT 输入AR’s output 生成下一个patch对应的speech，但是diffusion 在这些条件下很难预测下一个patch的信息；为了解决这一问题，如图1右，之前的patch 作为prefix，因此让任务和outpaiting & context-learning potential 更相关，也改善了生成性能。（4.4 详述）
也隐含了一个coarse-to-fine 的过程；
CFG 需要两次计算，如果对LLM 算两次，开销很大，本文提出一次LM 计算和两次diffusion 计算。

# infer的时候，with_condition & wo_condition 推理两次
# train的时候，0.1的概率将LM的输出置为0，模拟wo_condition的状态，loss 函数正常计算
# pred = diffusion(zero, z) loss = mse(pre, target)
def cfg_guidance(z, hi, h∅, w):# 无条件输出uncond_output = diffusion_model(z, h∅)# 有条件输出cond_output = diffusion_model(z, hi)# CFG 调整， w控制向文本/LM condition偏移的程度final_output = (1 + w) * cond_output - w * uncond_outputreturn final_output# 温度系数，温度 τ 调整噪声引入的时间点，影响生成结果的多样性
if τ == 1:noise = normal_distribution()  # 纯噪声
elif 0 < τ < 1:noise = apply_diffusion(z0, τ)  # 基于温度的噪声