On Benchmarking Human-Like Intelligence in Machines

作者: Lance Ying, Katherine M. Collins, Lionel Wong, Ilia Sucholutsky, Ryan Liu, Adrian Weller, Tianmin Shu, Thomas L. Griffiths, Joshua B. Tenenbaum

发布时间: 2025-03-03

来源: arxiv

研究方向: 人工智能与认知科学

主要内容

本文探讨了如何评估人工智能系统在认知任务上的表现是否类似于人类。作者认为，当前评估人工智能认知能力的范式存在不足，并提出了改进建议。

1. 指出了当前评估人工智能认知能力范式的不足，包括缺乏人类验证的标签、人类响应变异性和不确定性的不足表示，以及对简化和生态无效任务的依赖。

2. 通过人类评估研究，揭示了现有AI基准任务设计和标签中的潜在偏差和缺陷。

3. 提出了五个具体建议，以开发未来的基准，以更严格和有意义地评估人工智能中人类类似认知能力。

4. 强调了认知建模的最佳实践，以指导未来基准的设计和评估。

1. 人类评估研究：招募参与者对AI基准任务进行标注，并收集他们的响应数据。

2. 数据分析：分析人类响应数据，以揭示人类判断的分布和一致性。

3. 认知建模：借鉴认知科学中的最佳实践，以指导基准的设计和评估。

研究发现，在现有AI基准任务中，人类判断的一致性较低，存在严重的偏差和缺陷。此外，人类对某些刺激的响应模式并未被现有基准标签所捕捉。

未来研究应着重于以下方面： - 开发更全面和生态有效的基准任务。 - 采用更精确和可靠的人类数据收集方法。 - 探索如何更有效地评估人工智能的认知能力。