Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents

作者: Rui Xu, MingYu Wang, XinTao Wang, Dakuan Lu, Xiaoyu Tan, Wei Chu, Yinghui Xu

发布时间: 2025-03-12

来源: arxiv

研究方向: 角色扮演语言代理(RPLAs)的内部思维推理

主要内容

本文提出了一种名为ROLETHINK的基准,用于评估角色扮演语言代理的内部思维推理能力。通过构建金集和银集,分别比较生成的思维与原始角色独白以及专家合成的角色分析,评估了角色思维生成。本文还提出了MIRROR方法,通过检索记忆、预测角色反应和综合动机来生成角色思维,并通过实验验证了其在RPLAs中的重要性。

主要贡献

1. 1. 提出了角色扮演语言代理内部思维推理的首次研究,并构建了首个评估此过程的基准。

2. 2. 提出了MIRROR方法,该方法更好地生成角色内部思维过程。

3. 3. 对不同的LLMs进行了广泛的实验,验证了内部思维过程在多个角色扮演下游任务中的重要性。

研究方法

1. 1. 构建ROLETHINK基准,包含金集和银集。

2. 2. 提出MIRROR方法,包括记忆检索、理论思维和反思总结三个步骤。

3. 3. 使用BLEU、ROUGE-L、NLI等自动文本评估指标以及基于模型和人工评估方法。

4. 4. 在不同的角色扮演基准上进行实验,包括LifeChoice、CROSS-MR和RoleEval。

实验结果

实验结果表明,MIRROR方法在ROLETHINK基准上优于现有方法,且角色思维数据可以提高角色扮演的性能。此外,长文本模型在长上下文设置中表现良好,而推理模型在决策任务中表现较好。

未来工作

未来研究可以探索将该方法应用于不同类型的文学作品,以及如何改进模型以更好地捕捉角色的心理复杂性。