Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable?
作者: Maxime Méloux, Silviu Maniu, François Portet, Maxime Peyrard
发布时间: 2025-03-03
来源: arxiv
研究方向: 机器学习解释性
主要内容
本文研究了机制可解释性(MI)在神经网络中的应用,特别是针对MI解释的唯一性问题。作者通过实验发现,在简单的任务和小的多层感知器(MLP)中,MI解释可能存在多个互斥的解释,这挑战了MI解释唯一性的直觉。
主要贡献
1. 提出了“唯一性”的概念,并将其应用于MI解释。
2. 识别了两种产生MI解释的策略:'where-then-what'和'what-then-where'。
3. 通过实验验证了在简单的任务和小的MLP中,MI解释可能存在多个互斥的解释。
4. 讨论了是否需要唯一性以及可能的替代标准。
5. 提出了“内部可解释性”框架,该框架要求解释通过多个互补标准进行验证。
研究方法
1. 实验:使用简单的任务(学习布尔函数)和足够小的多层感知器(MLP)进行实验。
2. 统计分析:使用统计方法来分析实验结果。
3. 因果推理:使用因果推理来评估候选解释。
4. 因果抽象:使用因果抽象的概念来评估解释的有效性。
实验结果
实验结果表明,在简单的任务和小的MLP中,MI解释可能存在多个互斥的解释。具体来说,作者发现:1)多个电路可以完美地复制模型的行为;2)对于给定的电路,存在多个有效的解释;3)多个算法可以与神经网络进行完美的因果对齐;4)对于给定的因果对齐算法,神经网络中的多个子空间可以同样对齐。
未来工作
未来工作可以包括:1)探索更严格的基于因果抽象的准则;2)明确地制定解释的实用目标;3)采用更广泛的框架,如内部可解释性框架;4)研究更大规模的模型,以确定当前问题是否仍然存在。