All You Need is Sally-Anne: ToM in AI Strongly Supported After Surpassing Tests for 3-Year-Olds
作者: Nitay Alon, Joseph Barnby, Reuth Mirsky, Stefan Sarkadi
发布时间: 2025-04-02
来源: arxiv
研究方向: 人工智能与认知科学中的理论思维(ToM)研究
主要内容
本文研究了人工智能(AI)中的理论思维(ToM)能力,提出了一种名为ToM and GeRRI的模型,该模型在Sally-Anne测试和Smarties任务中表现优异,超越了3岁儿童的测试标准。
主要贡献
1. 提出了一种基于梯度评估和递归推理的ToM模型(ToM and GeRRI),能够通过梯度推理(GBI)和递归表示来模拟人类的认知过程。
2. 通过实验验证了该模型在ToM任务中的能力,表明AI可以模拟早期人类的社会认知。
3. 强调了在评估AI的ToM能力时,应考虑更广泛的社会认知能力,而不仅仅是传统的ToM测试。
研究方法
1. 梯度推理(GBI):利用反向传播和贝叶斯推理来调整信念表示。
2. 递归表示:通过递归神经网络(RNN)实现多层推理,模拟人类的递归思维。
3. 表示学习:通过连续的梯度更新动态编码信念表示。
4. 多任务学习:将相同的表示用于多个推理任务,促进知识迁移和减少过拟合。
实验结果
模型在Sally-Anne测试和Smarties任务中,均达到了与3岁儿童相当的性能水平,证明了模型在ToM任务中的能力。
未来工作
建议研究人员重新评估现有的方法论,探索更适合AI系统的替代框架。同时,建议在评估AI的ToM能力时,考虑更广泛的社会认知能力,并谨慎使用梯度下降等优化方法。