Re-evaluating Theory of Mind evaluation in large language models

作者: Jennifer Hu, Felix Sosa, Tomer Ullman

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型(LLM)的元认知能力评估

主要内容

本文探讨了大型语言模型(LLM)是否具备理论心智(ToM)能力。理论心智是指理解他人心理状态的能力,是社交互动和语言理解的核心。文章分析了LLM在ToM任务上的表现,指出了现有评估方法的不足,并提出了未来研究方向。

主要贡献

1. 提出了两种定义ToM能力的方式:行为匹配和计算匹配,并分析了这两种方式的优缺点。

2. 指出了现有ToM评估方法的两个主要问题:过度关注行为匹配和评估材料的有效性问题。

3. 提出了未来研究方向,包括ToM与实用沟通的关系、ToM的学习机制、自发性ToM和机制可解释性等。

4. 建议使用开放的模型,避免模型在对抗性例子上进行训练,以确保评估的有效性。

研究方法

1. 文献分析

2. 案例研究

3. 理论推导

4. 实验设计

实验结果

文章指出,LLM在ToM任务上的表现存在争议。一些研究表明,LLM能够达到甚至超过人类水平的表现,而另一些研究则认为LLM的ToM能力并不稳健,容易受到对抗性例子的影响。

未来工作

未来研究应关注以下方向: 1. 探讨ToM与实用沟通的关系,研究LLM在实用沟通任务上的表现。 2. 研究ToM的学习机制,探索如何通过训练提升LLM的ToM能力。 3. 开发自发性ToM,使LLM能够在没有明确提示的情况下进行ToM推理。 4. 探索机制可解释性,理解LLM在ToM任务上的内部计算过程。