Rewarding Curse: Analyze and Mitigate Reward Modeling Issues for LLM Reasoning
作者: Jiachun Li, Pengfei Cao, Yubo Chen, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu, Jun Zhao
发布时间: 2025-03-10
来源: arxiv
研究方向: 大型语言模型(LLM)推理与优化
主要内容
本文研究了大型语言模型在推理任务中,尤其是在数学推理任务中,奖励模型(RM)的性能和问题。通过分析奖励模型在不同任务难度、采样数量和搜索多样性等因素下的表现,提出了一种新的推理算法Optimal Clustering Tree Search (OCTS),以提升LLM的推理能力。
主要贡献
1. 系统分析了影响奖励模型在下游推理任务中表现的关键因素。
2. 发现了奖励模型在简单问题、高采样数量和高多样性分布下的表现问题。
3. 提出了OCTS算法,有效提升了LLM基于奖励模型的推理性能,提高了3.2%的准确率。
研究方法
1. 数学建模:对基于奖励模型的推理过程进行数学建模,识别关键因素。
2. 实验分析:在不同任务难度、采样数量和搜索多样性下进行实验,分析奖励模型的表现。
3. OCTS算法:设计了一种新的推理算法,包括探索、选择和扩展三个步骤,以解决奖励模型的问题。
实验结果
实验结果表明,OCTS算法在多个数据集和模型上有效提升了LLM的推理性能,相较于其他基线方法,准确率提高了3.2%。实验结果进一步验证了之前分析的奖励模型的问题。
未来工作
研究奖励模型在更多推理任务中的问题,以及奖励模型在训练阶段的问题。