Re-evaluating Theory of Mind evaluation in large language models
作者: Jennifer Hu, Felix Sosa, Tomer Ullman
发布时间: 2025-03-03
来源: arxiv
研究方向: 大型语言模型(LLM)的元认知能力评估
主要内容
本文探讨了大型语言模型(LLM)是否具备理论心智(ToM)能力。理论心智是指理解他人心理状态的能力,是社交互动和语言理解的核心。文章分析了LLM在ToM任务上的表现,指出了现有评估方法的不足,并提出了未来研究方向。
主要贡献
1. 提出了两种定义ToM能力的方式:行为匹配和计算匹配,并分析了这两种方式的优缺点。
2. 指出了现有ToM评估方法的两个主要问题:过度关注行为匹配和评估材料的有效性问题。
3. 提出了未来研究方向,包括ToM与实用沟通的关系、ToM的学习机制、自发性ToM和机制可解释性等。
4. 建议使用开放的模型,避免模型在对抗性例子上进行训练,以确保评估的有效性。
研究方法
1. 文献分析
2. 案例研究
3. 理论推导
4. 实验设计
实验结果
文章指出,LLM在ToM任务上的表现存在争议。一些研究表明,LLM能够达到甚至超过人类水平的表现,而另一些研究则认为LLM的ToM能力并不稳健,容易受到对抗性例子的影响。
未来工作
未来研究应关注以下方向: 1. 探讨ToM与实用沟通的关系,研究LLM在实用沟通任务上的表现。 2. 研究ToM的学习机制,探索如何通过训练提升LLM的ToM能力。 3. 开发自发性ToM,使LLM能够在没有明确提示的情况下进行ToM推理。 4. 探索机制可解释性,理解LLM在ToM任务上的内部计算过程。