Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment
作者: Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang
发布时间: 2025-03-07
来源: arxiv
研究方向: 自然语言处理,多语言模型偏好对齐
主要内容
本文提出了一种名为“隐式跨语言奖励”的新方法,旨在通过利用现有英语模型中嵌入的偏好知识,实现高效的多语言模型偏好对齐。该方法通过迭代训练,将英语模型中学习到的偏好通过隐式奖励转移到其他语言中,从而减少对大量多语言偏好数据的依赖。
主要贡献
1. 提出了一种名为“隐式跨语言奖励”的新方法,通过利用英语模型的知识来促进多语言偏好对齐。
2. 通过迭代训练,将英语模型中学习到的偏好通过隐式奖励转移到其他语言中。
3. 实验结果表明,该方法能够显著提高多语言模型偏好对齐的效率,同时减少对大量多语言偏好数据的依赖。
研究方法
1. 隐式跨语言奖励模型,从英语DPO对齐模型的logits及其对应参考模型中推导。
2. 使用英语指令评估多语言响应,以标注跨语言指令-响应对中的偏好关系。
3. 迭代DPO微调,使用标注数据,实现偏好知识从英语到其他语言的迁移。
实验结果
实验结果表明,该方法在X-AlpacaEval排行榜上实现了平均胜率的12.72%提升和长度控制胜率的5.97%提升。实验还表明,该方法对其他DAAs对齐的基础模型和低资源语言也具有广泛的适用性。
未来工作
未来工作将探索更具体的语言对齐,例如文化对齐,并进一步研究如何提高隐式跨语言奖励的准确性。