RePO: ReLU-based Preference Optimization
作者: Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
发布时间: 2025-03-11
来源: arxiv
研究方向: 机器学习,自然语言处理,偏好优化
主要内容
本文提出了一种名为RePO的基于ReLU的偏好优化算法,旨在解决大型语言模型(LLM)与人类偏好对齐的问题。该算法通过简化SimPO算法,消除了超参数β,并采用ReLU激活函数,实现了一种更高效、更鲁棒的偏好优化方法。
主要贡献
1. 提出了一种新的偏好优化算法RePO,通过消除SimPO中的超参数β,简化了算法。
2. 采用ReLU激活函数,实现了数据过滤,减少了过拟合。
3. 证明了RePO在多个基准测试中优于DPO和SimPO,且只需要一个超参数γ进行调整。
4. 提出了RePO++算法,进一步提升了性能,同时保持了RePO的优点。
5. 从理论上分析了RePO,证明了其在偏好优化中的优越性。
研究方法
1. ReLU激活函数
2. 最大边缘损失函数
3. 梯度分析
4. 数据过滤
5. 超参数调整
实验结果
RePO在AlpacaEval 2和Arena-Hard等多个基准测试中优于DPO和SimPO,且只需要一个超参数γ进行调整。RePO++算法在大多数情况下也优于RePO,特别是在DPO和SimPO上。动态调整γ值可以进一步提高模型性能。
未来工作
将RePO扩展到在线强化学习框架,以增强实时适应性和可扩展性。进一步探索如何优化截止点策略,以在自我博弈场景中提高性能。