Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
作者: Jiacheng Lin, Tian Wang, Kun Qian
发布时间: 2025-04-03
来源: arxiv
研究方向: 推荐系统与生成式大型语言模型结合
主要内容
本文提出了一种名为REC-R1的强化学习框架,旨在通过闭环优化将大型语言模型(LLM)与推荐系统相结合。该框架通过直接优化LLM生成内容,利用来自固定、黑盒推荐模型的反馈,避免了数据蒸馏所需的大量成本和努力。
主要贡献
1. 提出了一种名为REC-R1的强化学习框架,用于优化LLM生成内容,以提高推荐系统性能。
2. 在产品搜索和序列推荐等任务上进行了实验,证明了REC-R1在性能上的优越性。
3. REC-R1能够保留LLM的通用能力,而监督式微调(SFT)通常会损害指令遵循和推理能力。
4. REC-R1无需人工标注或数据蒸馏,即可通过推荐系统反馈进行优化,使其易于部署在现有生产系统中。
研究方法
1. 强化学习(RL)
2. 闭环优化
3. 黑盒反馈
4. Group Relative Policy Optimization (GRPO)
5. 规则化奖励函数
实验结果
REC-R1在产品搜索和序列推荐任务上均取得了显著的性能提升,优于基于提示和SFT的方法,甚至在简单的检索器(如BM25)上也能实现显著的性能提升。此外,REC-R1还保持了LLM的通用能力,而SFT则会损害LLM的通用能力。
未来工作
未来工作将探索将REC-R1扩展到所有四种主要范式,最终实现能够灵活适应新任务和域的终身推荐代理,而无需从头开始重新训练。