Effectively Controlling Reasoning Models through Thinking Intervention

作者: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal

发布时间: 2025-04-02

来源: arxiv

研究方向: 大型语言模型(LLM)的推理过程控制

主要内容

本文提出了一种名为“思维干预”的新范式,旨在通过在推理过程中插入或修改特定的思维标记来显式地引导大型语言模型(LLM)的内部推理过程。该研究旨在提高LLM在复杂任务中的表现,并增强模型行为的可控性。

主要贡献

1. 提出了思维干预这一新范式,用于控制LLM的推理过程。

2. 证明了思维干预在指令遵循、指令层次和安全性对齐任务中优于基线提示方法。

3. 在多个任务上进行了广泛的评估,包括IFEval上的指令遵循、SEP上的指令层次和XSTest和SORRY-Bench上的安全性对齐。

4. 实现了高达6.7%的指令遵循准确率提升、15.4%的指令层次推理改进和40.0%的不安全提示拒绝率增加。

研究方法

1. 设计了一种名为思维干预的新范式,通过在推理过程中插入或修改特定的思维标记来显式地引导LLM的内部推理过程。

2. 使用后缀监测器来实现干预函数,检测推理链中的触发字符串,并在检测到触发字符串时插入干预序列。

3. 在多个任务上对思维干预进行了评估,包括指令遵循、指令层次和安全性对齐。

实验结果

思维干预在多个任务上显著优于基线提示方法,包括指令遵循、指令层次和安全性对齐。在指令遵循任务中,思维干预实现了高达6.7%的准确率提升;在指令层次任务中,实现了15.4%的改进;在安全性对齐任务中,实现了高达40.0%的不安全提示拒绝率增加。

未来工作

未来的工作将探索如何将思维干预与现有机制(如RLHF或宪法AI方法)相结合,以创建更稳健的安全框架。此外,还将探索如何改进思维干预的设计,例如通过优化干预序列或在不同推理阶段插入干预。