D3PO: Preference-Based Alignment of Discrete Diffusion Models
作者: Umberto Borso, Davide Paglieri, Jude Wells, Tim Rocktäschel
发布时间: 2025-03-12
来源: arxiv
研究方向: 离散扩散模型与偏好优化
主要内容
该研究提出了一种名为Discrete Diffusion DPO (D3PO)的新方法,用于对离散扩散模型进行偏好优化。D3PO基于Direct Preference Optimization (DPO)框架,通过使用偏好数据直接微调生成过程,同时保持对参考分布的保真度。
主要贡献
1. 将DPO框架应用于离散扩散模型,为离散扩散模型提供了一种基于偏好的优化方法。
2. 导出了一个新颖的损失函数,可以直接使用偏好数据微调离散扩散模型,同时保持对参考分布的保真度。
3. 在结构化二进制序列生成任务上验证了D3PO的有效性,证明了该方法可以有效地将模型输出与偏好对齐,同时保持结构有效性。
4. D3PO不需要显式的奖励模型,因此可以作为基于强化学习的方法的实用替代方案。
研究方法
1. Discrete Diffusion Models (离散扩散模型)
2. Continuous-Time Markov Chains (CTMCs) (连续时间马尔可夫链)
3. Direct Preference Optimization (DPO) (直接偏好优化)
4. Bradley-Terry (BT) Model (Bradley-Terry模型)
5. RLHF (Reinforcement Learning from Human Feedback) (人类反馈强化学习)
6. Masking-State Noising Process (掩码状态噪声过程)
实验结果
在结构化二进制序列生成任务中,D3PO成功地使模型倾向于生成表示奇数的二进制序列,同时保持了结构有效性。实验结果表明,D3PO在优化过程中损失单调递减,奇数序列的比率迅速上升,且有效样本比率在初始下降后稳步恢复,超过了基线。
未来工作
未来研究将探索将D3PO扩展到更复杂的生成任务,如语言建模和蛋白质序列生成。此外,还将研究替代的噪声方案,例如均匀噪声,以增强在不同应用中的灵活性。