Why Trust in AI May Be Inevitable

作者: Nghi Truong, Phanish Puranam, Ilia Testlin

发布时间: 2025-03-03

来源: arxiv

研究方向: 人工智能与人类交互,知识网络,AI可解释性

主要内容

本文探讨了在人类与AI交互中,解释的重要性以及信任可能成为替代机制的原因。作者通过构建一个形式化的模型,揭示了即使在理论上理想的条件下,解释也可能失败。这是因为成功解释不仅需要存在共享知识,还需要在时间限制内找到连接路径。这导致人们在面对解释的局限性时,可能会默认选择信任,而不是要求真正的解释。

主要贡献

1. 提出了一种形式化的模型来分析解释过程,揭示了解释的局限性。

2. 证明了即使在理想条件下,解释也可能失败。

3. 强调了信任在人类与AI交互中的重要性。

4. 提出了AI系统建立信任的潜在战略方向。

研究方法

1. 知识网络模型

2. 形式化分析

3. 模拟实验

实验结果

实验结果表明,即使在共享知识存在的情况下,解释也可能失败。此外,具有更高知识水平的解释者可能从开始解释中获得较低的预期收益,即使知识重叠程度相同。

未来工作

未来的研究可以探讨以下方向: 1. 在不同的网络拓扑结构下,研究不同的搜索策略(如广度优先搜索和深度优先搜索)。 2. 将知识网络视为动态实体,研究学习和可解释性如何共同进化。 3. 将框架扩展到多智能体设置,研究集体搜索过程与个人搜索过程的差异。