Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
作者: Marianne Arriola, Aaron Gokaslan, Justin T Chiu, Zhihan Yang, Zhixuan Qi, Jiaqi Han, Subham Sekhar Sahoo, Volodymyr Kuleshov
发布时间: 2025-03-13
来源: arxiv
研究方向: 自然语言处理,语言模型
主要内容
本文研究了扩散语言模型在自然语言处理领域的应用,提出了一种新的块扩散语言模型(BD3-LMs),该模型结合了离散去噪扩散模型和自回归模型的优点,能够生成任意长度的序列,并提高了推理效率。
主要贡献
1. 引入了块扩散语言模型(BD3-LMs),该模型在块级别上结合了自回归和扩散模型的优势。
2. 提出了针对块自回归模型的专用训练算法,可以高效地利用整个批次的标记。
3. 确定了梯度方差是扩散模型性能的限制因素,并提出了自定义的数据驱动噪声调度来减少梯度方差。
4. 在语言模型基准测试中,BD3-LMs取得了新的最佳性能,并能够生成任意长度的序列。
研究方法
1. 结合自回归和扩散模型的优势,通过在块级别上进行自回归建模和在每个块内执行扩散来构建BD3-LMs。
2. 提出了一种高效的训练算法,可以并行处理所有块,从而提高推理效率。
3. 设计了数据驱动的噪声调度,以减少梯度方差并提高训练效率。
4. 通过实验评估了BD3-LMs在各种语言模型基准测试中的性能。
实验结果
BD3-LMs在语言模型基准测试中取得了新的最佳性能,并能够生成任意长度的序列。与现有的扩散语言模型相比,BD3-LMs在生成质量、推理效率和可扩展性方面都有所改进。
未来工作
未来的工作可以集中在提高BD3-LMs的推理速度和可扩展性,以及将其应用于更广泛的自然语言处理任务。