Generalized Interpolating Discrete Diffusion

作者: Dimitri von Rütte, Janis Fluri, Yuhui Ding, Antonio Orvieto, Bernhard Schölkopf, Thomas Hofmann

发布时间: 2025-03-08

来源: arxiv

研究方向: 自然语言处理，生成模型，扩散模型

主要内容

本文提出了一种名为广义插值离散扩散（GIDD）的扩散模型，用于自然语言生成。GIDD通过引入混合噪声和改进的训练目标，提高了模型在文本生成方面的性能，并实现了自我纠错的能力。

1. 提出了一种名为GIDD的广义插值离散扩散模型，该模型可以灵活地选择噪声过程，并具有封闭形式的累积状态转换和扩散ELBO。

2. 利用GIDD的灵活性，探索了一种混合方法，结合了掩码和均匀噪声，从而提高了样本质量，并解锁了模型自我纠错的能力。

3. 实现了与现有模型相当的计算性能，同时在扩散语言建模中取得了最先进的性能。

4. 开源了代码和模型，促进了该领域的进一步研究。

1. 广义插值离散扩散（GIDD）模型

2. 混合噪声

3. 改进的扩散ELBO

4. 自我纠错步骤

实验结果表明，GIDD模型在OpenWebText（OWT）数据集上取得了与现有模型相当的计算性能，同时在扩散语言建模中取得了最先进的性能。此外，GIDD模型能够实现自我纠错，提高了样本质量。

未来可以进一步探索GIDD模型在其他数据集上的性能，并研究如何将GIDD模型应用于其他领域，例如图像生成和音频合成。此外，可以研究如何进一步提高GIDD模型的可解释性和鲁棒性。