Post-Hoc Concept Disentanglement: From Correlated to Isolated Concept Representations

作者: Eren Erogullari, Sebastian Lapuschkin, Wojciech Samek, Frederik Pahde

发布时间: 2025-03-10

来源: arxiv

研究方向: 可解释人工智能(XAI)与深度学习模型的可解释性和透明度

主要内容

该研究提出了一种后处理概念解耦方法,旨在通过引入非正交性损失,识别正交的概念方向,同时保留方向正确性,以解决神经网络中相关概念(如“胡子”和“领带”)的激活方向相互纠缠的问题。

主要贡献

1. 提出了一种新的后处理概念解耦方法,通过引入非正交性损失,促进正交概念方向的识别。

2. 该方法能够有效分离相关概念,从而提高概念解释的清晰度和可理解性。

3. 通过实验证明了该方法在激活引导任务中的优越性,包括概念插入和概念去除。

4. 提出了一种加权正交化方法,允许针对特定的概念对进行选择性分离。

研究方法

1. 使用概念激活向量(CAVs)来建模高阶概念。

2. 引入非正交性损失来鼓励正交概念方向。

3. 使用加权正交化方法来针对特定概念对进行选择性分离。

4. 使用AUROC作为方向正确性的代理指标。

5. 利用Layer-wise Relevance Propagation(LRP)生成概念热图来评估概念解耦效果。

实验结果

实验结果表明,该方法能够有效提高CAVs的正交性,同时保持方向正确性。与基线CAVs相比,该方法在概念插入和概念去除任务中表现出优越的性能。

未来工作

未来的工作可能包括:半监督训练CAVs以识别未标记的概念;定义新的训练目标,允许联合训练多个CAVs方向;将正交化损失集成到模型训练中。