Generalized Interpolating Discrete Diffusion
作者: Dimitri von Rütte, Janis Fluri, Yuhui Ding, Antonio Orvieto, Bernhard Schölkopf, Thomas Hofmann
发布时间: 2025-03-08
来源: arxiv
研究方向: 自然语言处理,生成模型,扩散模型
主要内容
本文提出了一种名为广义插值离散扩散(GIDD)的扩散模型,用于自然语言生成。GIDD通过引入混合噪声和改进的训练目标,提高了模型在文本生成方面的性能,并实现了自我纠错的能力。
主要贡献
1. 提出了一种名为GIDD的广义插值离散扩散模型,该模型可以灵活地选择噪声过程,并具有封闭形式的累积状态转换和扩散ELBO。
2. 利用GIDD的灵活性,探索了一种混合方法,结合了掩码和均匀噪声,从而提高了样本质量,并解锁了模型自我纠错的能力。
3. 实现了与现有模型相当的计算性能,同时在扩散语言建模中取得了最先进的性能。
4. 开源了代码和模型,促进了该领域的进一步研究。
研究方法
1. 广义插值离散扩散(GIDD)模型
2. 混合噪声
3. 改进的扩散ELBO
4. 自我纠错步骤
实验结果
实验结果表明,GIDD模型在OpenWebText(OWT)数据集上取得了与现有模型相当的计算性能,同时在扩散语言建模中取得了最先进的性能。此外,GIDD模型能够实现自我纠错,提高了样本质量。
未来工作
未来可以进一步探索GIDD模型在其他数据集上的性能,并研究如何将GIDD模型应用于其他领域,例如图像生成和音频合成。此外,可以研究如何进一步提高GIDD模型的可解释性和鲁棒性。