AMPO: Active Multi-Preference Optimization

作者: Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan

发布时间: 2025-02-27

来源: arxiv

研究方向: 多偏好优化与自我玩语言模型对齐

主要内容

本文提出了一种名为AMPO(主动多偏好优化)的框架,用于自我玩语言模型对齐。该框架结合了策略生成、多偏好组对比损失和主动子集选择,旨在通过选择具有不同评分和语义的代表性响应子集来优化偏好。

主要贡献

1. 提出了一种结合策略生成、多偏好组对比损失和主动子集选择的主动多偏好优化(AMPO)框架。

2. 提供了理论保证,证明了使用主动选择方法可以最大化预期奖励。

3. 在AlpacaEval基准测试中,AMPO实现了最先进的性能。

4. 公开了AMPO核心集选择和AMPO优化选择数据集,以促进多偏好优化研究。

研究方法

1. 策略生成

2. 多偏好组对比损失

3. 主动子集选择

4. REFA(无参考组对比)目标函数

5. 基于核心集的聚类

6. 基于优化选择的主动子集选择

7. Lipschitz连续性假设

实验结果

AMPO在AlpacaEval基准测试中取得了最先进的性能,超越了现有的基线方法如SIMPO。

未来工作

通过多偏好优化在多样化查询上,模型可以不断通过接收关于不同失败(和成功)模式的反馈来改进自己。这种方法可以创建一个反馈循环,在策略改进和奖励模型改进之间建立联系。