Generalized Interpolating Discrete Diffusion

作者: Dimitri von Rütte, Janis Fluri, Yuhui Ding, Antonio Orvieto, Bernhard Schölkopf, Thomas Hofmann

发布时间: 2025-03-08

来源: arxiv

研究方向: 自然语言处理,生成模型,扩散模型

主要内容

本文提出了一种名为广义插值离散扩散(GIDD)的扩散模型,用于自然语言生成。GIDD通过引入混合噪声和改进的训练目标,提高了模型在文本生成方面的性能,并实现了自我纠错的能力。

主要贡献

1. 提出了一种名为GIDD的广义插值离散扩散模型,该模型可以灵活地选择噪声过程,并具有封闭形式的累积状态转换和扩散ELBO。

2. 利用GIDD的灵活性,探索了一种混合方法,结合了掩码和均匀噪声,从而提高了样本质量,并解锁了模型自我纠错的能力。

3. 实现了与现有模型相当的计算性能,同时在扩散语言建模中取得了最先进的性能。

4. 开源了代码和模型,促进了该领域的进一步研究。

研究方法

1. 广义插值离散扩散(GIDD)模型

2. 混合噪声

3. 改进的扩散ELBO

4. 自我纠错步骤

实验结果

实验结果表明,GIDD模型在OpenWebText(OWT)数据集上取得了与现有模型相当的计算性能,同时在扩散语言建模中取得了最先进的性能。此外,GIDD模型能够实现自我纠错,提高了样本质量。

未来工作

未来可以进一步探索GIDD模型在其他数据集上的性能,并研究如何将GIDD模型应用于其他领域,例如图像生成和音频合成。此外,可以研究如何进一步提高GIDD模型的可解释性和鲁棒性。