AMPO: Active Multi-Preference Optimization
作者: Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan
发布时间: 2025-02-27
来源: arxiv
研究方向: 多偏好优化与自我玩语言模型对齐
主要内容
本文提出了一种名为AMPO(主动多偏好优化)的框架,用于自我玩语言模型对齐。该框架结合了策略生成、多偏好组对比损失和主动子集选择,旨在通过选择具有不同评分和语义的代表性响应子集来优化偏好。
主要贡献
1. 提出了一种结合策略生成、多偏好组对比损失和主动子集选择的主动多偏好优化(AMPO)框架。
2. 提供了理论保证,证明了使用主动选择方法可以最大化预期奖励。
3. 在AlpacaEval基准测试中,AMPO实现了最先进的性能。
4. 公开了AMPO核心集选择和AMPO优化选择数据集,以促进多偏好优化研究。
研究方法
1. 策略生成
2. 多偏好组对比损失
3. 主动子集选择
4. REFA(无参考组对比)目标函数
5. 基于核心集的聚类
6. 基于优化选择的主动子集选择
7. Lipschitz连续性假设
实验结果
AMPO在AlpacaEval基准测试中取得了最先进的性能,超越了现有的基线方法如SIMPO。
未来工作
通过多偏好优化在多样化查询上,模型可以不断通过接收关于不同失败(和成功)模式的反馈来改进自己。这种方法可以创建一个反馈循环,在策略改进和奖励模型改进之间建立联系。