FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users
作者: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
发布时间: 2025-02-27
来源: arxiv
研究方向: 语言模型个性化
主要内容
该研究提出了一种名为FSPO(Few-Shot Preference Optimization)的新框架,旨在通过元学习技术,使语言模型能够根据少量用户偏好数据快速适应用户,从而实现有效的个性化。FSPO利用合成偏好数据集,并通过元学习优化模型,使其能够为用户提供更加个性化的回答。
主要贡献
1. 提出FSPO框架,通过元学习实现语言模型的个性化
2. 使用合成偏好数据集,减少真实数据收集的难度和成本
3. 通过用户描述链式思维(COT)提高模型的个性化能力
4. 在多个领域(电影评论、教育背景适应性、通用问答)中评估FSPO的有效性
研究方法
1. 元学习
2. 合成偏好数据集构建
3. 用户描述链式思维(COT)
4. 奖励模型训练
5. 人类评估
实验结果
FSPO在生成针对合成用户和真实用户的个性化回答方面取得了显著的性能提升,平均胜率分别为87%和72%。
未来工作
探索平衡个性化与伦理安全性的机制,进一步优化FSPO框架;研究更有效的合成数据集构建方法;探索使用具有更好长上下文和推理能力的模型,如Gemini Flash Thinking模型,以进一步提高FSPO的性能。