Process-based Self-Rewarding Language Models
作者: Shimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong
研究方向: 自然语言处理与人工智能
本文提出了一种基于过程的自我奖励语言模型(Process-based Self-Rewarding Language Models),旨在解决现有自我奖励方法在数学推理场景中的不足,并提升大型语言模型(LLMs)在数学推理任务上的表现。