当前位置：首页 > news >正文

【AI论文】扩散二元性

news 2025/6/22 11:46:34

摘要：统一状态离散扩散模型因其固有的自我纠正能力而有望实现快速文本生成。然而，它们的性能通常不如自回归模型和掩码扩散模型。在这项工作中，我们通过利用一个关键见解来缩小这一性能差距：统一状态扩散过程自然地从底层高斯扩散中产生。我们的方法Duo借鉴了高斯扩散的强大技术，以改进训练和采样。首先，我们引入了一种由高斯过程引导的课程学习策略，通过降低方差使训练速度翻倍。在7个基准测试中，采用课程学习训练的模型在零样本困惑度上超过了自回归模型中的3个。其次，我们提出了离散一致性蒸馏，它将一致性蒸馏从连续设置适应到离散设置。该算法通过将采样速度提高两个数量级，实现了扩散语言模型中的几步生成。我们在项目页面上提供了代码和模型检查点：The Diffusion Duality。Huggingface链接：Paper page，论文链接：2506.10892

一、研究背景和目的

研究背景：

随着深度学习和自然语言处理技术的飞速发展，文本生成模型在多个领域展现出了巨大的应用潜力，如机器翻译、对话系统、文本摘要等。传统的文本生成模型，如自回归模型（Autoregressive Models）和掩码扩散模型（Masked Diffusion Models），在生成高质量文本方面取得了显著成果。然而，这些模型在训练速度、采样效率以及生成文本的多样性上仍存在局限。特别是自回归模型，虽然能够生成连贯的文本，但其逐词生成的方式导致训练速度较慢，且在生成长文本时容易出现累积误差。另一方面，掩码扩散模型虽然在图像生成领域表现出色，但在文本生成中的应用仍面临挑战，如采样速度慢和生成文本质量不稳定等问题。

在此背景下，离散扩散模型（Discrete Diffusion Models）作为一种新兴的文本生成模型，因其固有的自我纠正能力而备受关注。离散扩散模型通过模拟离散状态之间的扩散过程来生成文本，这种过程天然地具有自我纠正的特性，有望实现更快速、更高质量的文本生成。然而，现有的离散扩散模型在性能上仍不及自回归模型和掩码扩散模型，这限制了其在实际应用中的推广。

研究目的：

本研究旨在通过深入探索扩散对偶性（Diffusion Duality）的概念，提出一种名为Duo的新型文本生成方法，以缩小离散扩散模型与自回归模型、掩码扩散模型之间的性能差距。具体而言，本研究的目标包括：

揭示扩散对偶性：通过理论分析和实验验证，揭示离散扩散过程与底层高斯扩散过程之间的内在联系，为离散扩散模型的改进提供理论基础。
提出Duo方法：借鉴高斯扩散的强大技术，提出一种结合课程学习（Curriculum Learning）和离散一致性蒸馏（Discrete Consistency Distillation）的Duo方法，以改进离散扩散模型的训练和采样效率。
评估性能：在多个基准测试上评估Duo方法的性能，验证其在零样本困惑度（Zero-shot Perplexity）和采样速度方面的优势。
推动应用：通过提供代码和模型检查点，促进Duo方法在文本生成领域的实际应用和进一步研究。

二、研究方法

1. 扩散对偶性的理论探索：

本研究首先从理论上探索了离散扩散过程与底层高斯扩散过程之间的内在联系。通过数学推导和实验验证，揭示了离散扩散过程可以看作是高斯扩散过程在离散状态空间上的投影或近似。这一发现为后续提出Duo方法提供了理论基础。

2. Duo方法的提出：

基于扩散对偶性的理论探索，本研究提出了Duo方法，该方法结合了课程学习和离散一致性蒸馏两种技术：

课程学习：引入了一种由高斯过程引导的课程学习策略。该策略通过逐步增加任务的难度，引导模型从简单任务开始学习，逐渐过渡到复杂任务。这种学习方式有助于降低训练过程中的方差，提高训练速度。具体而言，课程学习策略通过动态调整训练数据的分布，使得模型在训练初期接触到更多简单的样本，随着训练的进行，逐渐引入更复杂的样本。
离散一致性蒸馏：提出了一种将连续设置下的一致性蒸馏技术适应到离散设置的方法。一致性蒸馏是一种通过训练一个较小的学生模型来模仿较大教师模型行为的技术。在离散设置下，本研究通过引入额外的约束条件，确保学生模型在生成文本时保持与教师模型的一致性。这种方法通过加速采样过程，实现了扩散语言模型中的几步生成，大大提高了采样效率。

3. 实验设计与评估：

为了验证Duo方法的性能，本研究在多个基准测试上进行了实验评估。实验设计包括以下几个方面：

数据集：选择了七个具有代表性的文本生成基准测试数据集，包括不同领域和风格的文本数据。
模型对比：将Duo方法与自回归模型、掩码扩散模型以及其他相关的离散扩散模型进行了对比。对比指标包括零样本困惑度、采样速度以及生成文本的质量。
实验设置：详细描述了实验的设置，包括模型的超参数、训练策略以及评估方法。确保了实验的可重复性和结果的可靠性。

三、研究结果

1. 课程学习的效果：

实验结果表明，引入课程学习策略后，模型的训练速度显著提高。具体而言，在七个基准测试数据集上，采用课程学习训练的模型在训练时间上平均缩短了一半，同时零样本困惑度也有所降低。这表明课程学习策略通过降低训练过程中的方差，有效地提高了模型的训练效率。

2. 离散一致性蒸馏的性能：

离散一致性蒸馏技术的引入显著提高了扩散语言模型的采样速度。实验结果显示，通过离散一致性蒸馏训练的模型在采样速度上比传统方法提高了两个数量级，同时保持了较高的生成文本质量。这意味着在实际应用中，Duo方法能够更快速地生成高质量的文本，满足实时性要求较高的场景。

3. 整体性能对比：

在七个基准测试数据集上，Duo方法在零样本困惑度方面表现出色。具体而言，Duo方法在三个数据集上超过了自回归模型中的最优模型，在其余四个数据集上也取得了与自回归模型相当的性能。同时，在采样速度方面，Duo方法显著优于自回归模型和掩码扩散模型。这些结果表明，Duo方法在保持生成文本质量的同时，显著提高了训练和采样效率。

4. 生成文本的质量：

除了定量指标外，本研究还对生成文本的质量进行了主观评估。通过人工评审的方式，对Duo方法生成的文本进行了流畅性、连贯性和多样性等方面的评价。结果显示，Duo方法生成的文本在流畅性和连贯性方面与自回归模型生成的文本相当，同时在多样性方面表现出更高的水平。这表明Duo方法不仅能够生成高质量的文本，还能够保持较高的生成多样性。