Uncertainty-Aware Decoding with Minimum Bayes Risk
作者: Nico Daheim, Clara Meister, Thomas Möllenhoff, Iryna Gurevych
发布时间: 2025-03-10
来源: arxiv
研究方向: 自然语言处理,语言模型,不确定性量化
主要内容
本文提出了一种基于最小贝叶斯风险(MBR)的解码方法,该方法考虑了模型参数的不确定性,以减少语言模型生成不可接受输出的概率,如事实错误的文本。作者通过将模型参数的后验分布纳入MBR的计算中,改进了MBR解码,使其成为一个原则上的不确定性感知解码方法。
主要贡献
1. 将MBR解码推广为一种不确定性感知解码方法。
2. 通过将模型参数的后验分布纳入MBR的计算中,实现了对模型不确定性的考虑。
3. 提出了不同的后验学习方法和解码算法,包括序列级和标记级后验。
4. 展示了如何使用深度集成和多种后验分布来提高性能。
5. 证明了所提出的方法可以减少模型生成不可接受输出的概率,并提高了解码质量。
研究方法
1. 最小贝叶斯风险(MBR)解码
2. 后验分布学习
3. 深度集成
4. 序列级和标记级后验
5. 软模型平均和模型聚合
实验结果
实验结果表明,所提出的方法在各种语言生成和评分任务上均取得了显著的性能提升。与基线方法相比,该方法在保持计算开销不变的情况下,提高了解码质量和减少了不可接受输出的概率。此外,实验结果还表明,后验分布的复杂性和预测多样性对性能有重要影响。
未来工作
未来研究可以探索以下方向:1)开发更有效的后验学习算法;2)将不确定性感知解码方法应用于更广泛的自然语言处理任务;3)探索如何将不确定性感知解码方法与人类专家进行结合,以进一步提高解码质量。