Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting

作者: Yufei Li, John Nham, Ganesh Jawahar, Lei Shu, David Uthus, Yun-Hsuan Sung, Chengrun Yang, Itai Rolnick, Yi Qiao, Cong Liu

发布时间: 2025-03-11

来源: arxiv

研究方向: 自然语言处理,文本重写,强化学习

主要内容

本文提出了一种名为DR GENRÉ的通用文本重写模型,该模型能够处理事实性、风格和对话性重写任务。为了模拟现实世界的用户重写请求,作者构建了一个名为CHATREWRITE的对话重写数据集。同时,结合LONGFACT和REWRITELM数据集,形成了一个广泛的基准,用于训练和评估通用重写模型。DR GENRÉ利用目标导向的奖励模型和特定任务的加权,通过强化学习进行训练。

主要贡献

1. 引入了新的重写任务——对话重写,并创建了CHATREWRITE数据集。

2. 提出了DR GENRÉ,一个针对通用重写的解耦奖励学习框架。

3. 实验表明,加权解耦奖励提高了多个重写目标的性能,包括指令遵循(一致)、内部一致性(连贯)和最小不必要的编辑(简洁)。

4. 建立了使用少量LLMs、SFT和单奖励RL的鲁棒基准。

5. 实验证明,加权解耦奖励提供了对对齐方向的更精细控制,从而提高了多个重写目标的性能。

研究方法

1. 构建了一个名为CHATREWRITE的对话重写数据集。

2. 提出了DR GENRÉ,一个解耦的奖励学习框架。

3. 使用LLMs进行数据增强和奖励建模。

4. 使用强化学习进行模型训练。

5. 使用多种评估指标(如一致、连贯和编辑比率)来评估模型性能。

实验结果

实验结果表明,DR GENRÉ在LONGFACT、OPENREWRITEEVAL和CHATREWRITE数据集上均优于现有的SFT和RL基线。具体来说,DR GENRÉ在事实性重写任务中提高了事实性准确性,在风格重写任务中提高了风格一致性,在对话重写任务中提高了指令遵循和连贯性。

未来工作

未来工作将探索人机交互优化和上下文感知奖励建模,以进一步提高模型在复杂重写场景中的性能。此外,还将探索使用人类注释的评论来增强可靠性,以及结合自动和人工评估的混合评分系统。