Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

作者: Marianne Arriola, Aaron Gokaslan, Justin T Chiu, Zhihan Yang, Zhixuan Qi, Jiaqi Han, Subham Sekhar Sahoo, Volodymyr Kuleshov

发布时间: 2025-03-13

来源: arxiv

研究方向: 自然语言处理,语言模型

主要内容

本文研究了扩散语言模型在自然语言处理领域的应用,提出了一种新的块扩散语言模型(BD3-LMs),该模型结合了离散去噪扩散模型和自回归模型的优点,能够生成任意长度的序列,并提高了推理效率。

主要贡献

1. 引入了块扩散语言模型(BD3-LMs),该模型在块级别上结合了自回归和扩散模型的优势。

2. 提出了针对块自回归模型的专用训练算法,可以高效地利用整个批次的标记。

3. 确定了梯度方差是扩散模型性能的限制因素,并提出了自定义的数据驱动噪声调度来减少梯度方差。

4. 在语言模型基准测试中,BD3-LMs取得了新的最佳性能,并能够生成任意长度的序列。

研究方法

1. 结合自回归和扩散模型的优势,通过在块级别上进行自回归建模和在每个块内执行扩散来构建BD3-LMs。

2. 提出了一种高效的训练算法,可以并行处理所有块,从而提高推理效率。

3. 设计了数据驱动的噪声调度,以减少梯度方差并提高训练效率。

4. 通过实验评估了BD3-LMs在各种语言模型基准测试中的性能。

实验结果

BD3-LMs在语言模型基准测试中取得了新的最佳性能,并能够生成任意长度的序列。与现有的扩散语言模型相比,BD3-LMs在生成质量、推理效率和可扩展性方面都有所改进。

未来工作

未来的工作可以集中在提高BD3-LMs的推理速度和可扩展性,以及将其应用于更广泛的自然语言处理任务。