Post-Hoc Concept Disentanglement: From Correlated to Isolated Concept Representations

作者: Eren Erogullari, Sebastian Lapuschkin, Wojciech Samek, Frederik Pahde

发布时间: 2025-03-10

来源: arxiv

研究方向: 可解释人工智能(XAI)与深度学习模型的可解释性和透明度

主要内容

该研究提出了一种后处理概念解耦方法，旨在通过引入非正交性损失，识别正交的概念方向，同时保留方向正确性，以解决神经网络中相关概念（如“胡子”和“领带”）的激活方向相互纠缠的问题。

1. 提出了一种新的后处理概念解耦方法，通过引入非正交性损失，促进正交概念方向的识别。

2. 该方法能够有效分离相关概念，从而提高概念解释的清晰度和可理解性。

3. 通过实验证明了该方法在激活引导任务中的优越性，包括概念插入和概念去除。

4. 提出了一种加权正交化方法，允许针对特定的概念对进行选择性分离。

1. 使用概念激活向量（CAVs）来建模高阶概念。

2. 引入非正交性损失来鼓励正交概念方向。

3. 使用加权正交化方法来针对特定概念对进行选择性分离。

4. 使用AUROC作为方向正确性的代理指标。

5. 利用Layer-wise Relevance Propagation（LRP）生成概念热图来评估概念解耦效果。

实验结果表明，该方法能够有效提高CAVs的正交性，同时保持方向正确性。与基线CAVs相比，该方法在概念插入和概念去除任务中表现出优越的性能。

未来的工作可能包括：半监督训练CAVs以识别未标记的概念；定义新的训练目标，允许联合训练多个CAVs方向；将正交化损失集成到模型训练中。